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作为 主流 的 动态 语言 ，Python 不 仅 简单 易学 、 移 植 性 好 ， 而 且 拥 有 强大 丰富 的 库 的 支持 。 此 外 ，Python 强 大 的 
可 扩展 性 ， 让 开发 人 员 既 可 以 非常 容易 地 利用 C/C++ 编 写 Python 的 扩展 模块 ， 还 能 将 Python 伐 入 到 C/C++ 程 序 
中 ， 为 自己 的 系统 添加 动态 扩展 和 动态 编程 的 能 力 。 实 践 证 明 ， 在 数据 挖掘 、 图 像 处 理 、 网 络 游 戏 ， 以 及 
Web 开 发 等 领域 的 开发 实践 中 ， 采 用 Python 都 能 极 大 地 提高 开发 的 效率 


为 了 更 好 地 利用 Python 语言 ， 无 论 是 使 用 Python 语言 本 身 ， 是 将 Python 与 C/C++ 交 互 使 用 ， 深 刻 理解 
Python 的 运行 原理 都 是 非常 重要 的 。 本 书 以 CPython 为 研究 对 象 ， 在 C 代 码 一 级 ， 深 入 细致 地 剖析 了 Python 的 
实现 。 本 书 不 仅 包 括 了 对 大 量 Python 内 置 对 象 的 剖析 ， 更 将 大 量 的 篇 幅 用 于 对 Python 虚拟 机 及 Python 高 级 特性 
的 剖析 。 通 过 此 书 ， 读 者 能 够 透彻 地 理解 Python 中 的 一 般 表 达 式 、 控 制 结 构 、 异 常 机 制 、 类 机 制 、 多 线程 机 
制 、 模 块 的 动态 加 载 机 制 、 内 存 管理 机 制 等 核心 运行 原理 ， 同 时 ， 本 书 所 揭示 的 动态 语言 的 核心 技术 对 


于 理解 其 他 动态 语言 ， 如 JavaScript、 Rubv 圭 也 有 较 大 的 参考 价 


本 书 的 主要 特点 
四 一 本 深入 剖析 Python 具体 实现 的 著作 
日 内 容 新 鲜 ， 采 用 最 新 的 Python 语言 版 本 ( V2.5 ) 
加 hn 人 的 运作 机 理 
日 在 原理 介绍 的 同时 ， 带 领 读 者 一 起 动手 对 Python 虚拟 机 进行 改造 
@ 完整 覆盖 Python 所 有 的 核心 议题 ， 深 刻 揭示 Python 与 C/C++ 之 间 如 何 互 动 
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作为 主流 的 动态 语言 ，Python 不 仅 简单 易学 、 移 植 性 好 ， 而 且 拥 有 强大 丰富 的 库 的 支持 。 此 外 ， 
Python 强大 的 可 扩展 性 ， 让 开发 人 员 既 可 以 非常 容易 地 利用 C/C++ 编写 Python 的 扩展 模块 ， 还 能 将 
Python 嵌入 到 C/C++ 程序 中 ， 为 自己 的 系统 添加 动态 扩展 和 动态 编程 的 能 力 。 


为 了 更 好 地 利用 Python 语言 ， 无 论 是 使 用 Python 语言 本 身 ， 还 是 将 Python 与 C/C++ 交互 使 用 ， 
深刻 理解 Python 的 运行 原理 都 是 非常 重要 的 。 本 书 以 CPython 为 研究 对 象 ， 在 C 代码 一 级 ， 深 入 细致 
地 谢 析 了 Python 的 实现 , 书 中 不 仅 包 括 了 对 大 量 Python 内 置 对 象 的 剖析 , 更 将 大 量 的 篇 幅 用 于 对 Python 
虚拟 机 及 Python 高 级 特性 的 剖析 。 通过 此 书 , 读者 能 够 透彻 地 理解 Python 中 的 一 般 表 达 式 、 控制 结构 、 
异常 机 制 、 类 机 制 、 多 线程 机 制 、 模 块 的 动态 加 载 机 制 、 内 存 管理 机 制 等 核心 技术 的 运行 原理 ， 同 时 ， 
本 书 所 揭示 的 动态 语言 的 核心 技术 对 于 理解 其 他 动态 语言 , 如 Javascript、Ruby 等 也 有 较 大 的 参考 价值 。 
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让 我 们 做 得 更 好 





python， 我 想 已 经 不 再 是 个 陌生 的 词 了 ， 越 来 越 多 的 人 开始 学 习 它 ， 使 用 它 ， 宣 传 它 ， 
甚至 用 它 找到 了 工作 。 如 果 你 了 解 Python， 那么 我 想 问 一 下 ， 你 对 它 有 多 了 解 昵 ? 它 是 一 
种 什么 语言 ? 如 何 实现 的 ? 有 哪些 对 象 ,它们 是 如 何 处 理 的 ? 你 了 解 Python 的 虚拟 机 吗 ? 
了 解 它 的 运行 环境 吗 ? 其 实 作为 初学 者 或 只 是 使 用 者 ， 你 的 确 不 必 了 解 这 么 多 细节 的 内 
容 ， 但 是 探究 事物 的 原理 ， 分 析 底 层 细节 却 也 是 许多 人 成 为 高 手 、“ 老 鸟 ” 的 原因 ， 因 为 
你 知道 别人 不 知道 的 东西 ， 掌 握 了 别人 不 了 解 的 技术 ， 这 些 内 容 使 得 你 的 见解 、 分 析 ， 甚 
至 作品 都 可 能 超过 别人 。 那 么 本 书 就 向 你 提供 了 一 个 了 解 Python 底层 细节 的 机 会 ， 你 可 
以 沿 着 作者 的 思路 和 角度 去 体会 Python 的 工作 原理 和 底层 的 细节 ,一 点 一 点 地 了 解 Python 
源码 的 精妙 之 处 ， 有 助 于 更 好 地 掌握 Python 并 编写 出 高 质量 的 程序 。 


本 书 的 内 容 深入 到 Python 的 方方面面 ， 像 Python 的 对 象 实现 机 制 是 如 何 用 C 来 表现 
的 ; 对 象 的 特性 是 如 何 实现 的 ; 对 象 是 如 何 管 理 的 ; 不 同 对 象 ， 如 int、str、dict、list 
等 的 处 理 ，Python 的 虚拟 机 框架 、 作 用 域 的 实现 ， 运 行 时 环境 ，pyc 文件 ， 类 机 制 等 。 还 
有 一 些 高 级 话题 ,如 内 存 管 理 ，GIL (Global Interpreter Lock) 与 多 线程 ,模块 动态 加 载 等 。 


在 接触 到 本 书 之 前 ， 我 已 经 在 作者 的 Blog 上 见 到 过 部 分 内 容 ， 那 时 已 经 被 作者 不 懈 
的 才 力 和 深厚 的 功力 折服 。 说 实话 ， 由 于 经 常 接触 Python， 对 于 原本 熟悉 的 C 语言 也 越 来 
越 陌生 ， 更 不 要 说 去 “ 哨 ”Python 的 C 代码 了 。 而 Robert Chen 可 以 从 源码 中 进行 有 条 理 
的 分 析 和 整理 ， 并 终于 出 版 此 书 。 这 不 仅 让 人 敬佩 ， 更 让 广大 的 Python 爱好 者 受益 多 多 。 
因此 ， 当 出 版 社 希 望 我 为 本 书 作 一 个 推荐 序 时 ， 我 毫 不 犹 滞 地 答应 下 来 。 


第 一 次 见 到 Robert Chen 还 是 在 CPUG 的 一 次 会 课 上 ， 那 时 Robert Chen 给 大 家 带 来 
一 个 主题 为 “Python 作用 域 与 名 字 空 间 ” 的 讲座 ， 让 在 座 的 Pythoner 对 Python 的 作用 域 
机 制 有 了 更 深入 的 理解 ， 讲 座 效果 非常 好 ， 讨论 也 很 热烈 。 他 从 源码 的 角度 讲述 了 Python 
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的 一 些 规则 ， 使 得 大 家 的 理解 不 再 停留 在 形式 上 或 规则 上 ， 而 达到 了 本 质 或 实现 的 层次 ， 
让 我 们 “ 知 其 然 ， 更 知 其 所 以 然 ”。 


如 果 你 是 一 位 热心 的 Pythoner， 想 必 会 知道 中 文 Python 的 邮件 列表 (httpyW8roups. 
8oogle.com/8roup/python-cn)， 从 上 面 对 有 些 问 题 的 回复 中 ， 你 会 发 现 Robert Chen 总 是 从 
源码 及 字 节 码 实现 的 角度 来 回答 问题 ， 非 常 有 说 服 力 。 因 此 当 许 多 Python 爱好 者 得 知 
Robert Chen 将 出 版 此 书 时 ， 都 非常 盼望 ， 现 在 这 本 书 终于 出 版 ， 大 家 都 深 感 庆幸 ! 


本 书 不 仅仅 是 高 水 平 、 高 质量 的 一 本 书 ， 纵 观 国内 外 与 Python 相关 的 书籍 ， 它 也 是 
第 一 本 从 源码 角度 写作 的 书 ， 所 以 意义 非常 。 目 前 国内 原创 的 Python 书籍 还 不 多 ， 就 我 
所 知 国内 已 经 出 版 的 几 本 Python 方面 的 书 尚 不 能 满足 读者 需求 ， 而 本 书 应 该 不 会 让 你 失 
望 。 

不 过 本 书 应 该 不 是 面向 初学 者 的 书 ， 因 为 它 涉 及 了 许多 较 深 的 内 容 和 知识 ， 建 议 读者 
应 先 掌握 像 C 语言 、 数 据 结构 、 操 作 系统 、 编 译 原理 等 方面 的 基础 知识 ， 并 且 具 备 一 定 的 
编程 经 验 ， 才 能 更 好 地 理解 书 的 内 容 。， 


再 次 感谢 Robert Chen 带 给 大 家 的 这 份 礼物 ! 


李 迎 瘤 
limodou@eniail.com 
2008 年 春 
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真 的 难以 想象 ，Python 语言 和 社区 能 够 发 展 得 如 此 迅速 。 在 我 第 一 次 使 用 Python 完 
成 我 的 项 目 时 , 它 还 不 过 是 一 个 刚刚 在 开源 社区 中 起 步 的 新 生 儿 , 然后 在 各 方面 迅速 推广 ， 
4 月 8 日 ，google 发 布 的 App Engine 更 是 让 所 有 的 开发 人 员 眼 中 一 亮 。 相 信 今 后 会 有 更 多 
的 开发 人 员 投 入 到 Python 的 技术 领域 中 来 。 


记得 在 2002 年 时 ， 我 使 用 Python 写 了 一 套 大 规模 的 消息 系统 ， 几 位 同事 分 别 使 用 
Python 、Java 和 C 完成 了 一 个 异步 二 进 制 消息 流 的 客户 端 和 服务 器 。 通 过 一 系列 测试 ， 大 
家 惊奇 地 发 现 Python 以 每 秒 一 倍 的 数据 处 理 量 超过 了 C 写 的 代码 。 后 来 ， 我 的 同事 细心 
地 查看 了 Python 的 源 代码 ， 发 现 了 几 种 完全 不 同 的 操作 系统 调用 方法 ， 以 及 为 提高 性 能 
而 使 用 的 技巧 。 这 也 是 我 第 一 次 开始 查看 Python 的 源 代码 ,最 近 的 一 次 则 是 我 在 xBayTable 
中 使 用 asyncore 时 ， 通 过 阅读 asyncore 的 源 代码 排除 了 一 个 痛苦 bug， 轻松 地 找到 了 问题 
的 根源 ， 很 快 就 换 了 一 种 解决 方案 来 继续 我 的 工作 。 了 解 Python 的 源 代 码 ， 我 们 能 获得 
很 多 的 好 处 : 


> ”使 用 Python 方法 提高 自己 的 代码 性 能 和 功能 ; 
> ”快速 地 与 文档 结合 ， 解 决 问题 或 是 找 出 方法 ; 
> 扩展 Python。 


我 常 将 所 有 的 书 分 为 口袋 书 、 马 桶 书 、 枕 头 书 。RobertChen 的 《Python 源码 齐 析 》， 

更 多 讲述 的 是 CPython 中 的 实现 技术 和 方法 。 这 可 以 让 我 们 从 不 同 的 层面 了 解 Python 简 
洁 背后 的 机 理 。 我 更 推荐 大 家 把 它 当 做 口袋 书 ， 在 准备 书写 Python 扩展 前 把 它 作 为 一 本 
工具 书 ， 配 合 “Extending and Embedding the Python Interpreter” 会 让 你 更 容易 地 完成 你 的 
工作 。 另 一 方面 ， 当 你 想 使 用 Python 这 种 方法 解决 问题 时 ， 这 本 书 也 可 以 成 为 你 的 好 伙 
伴 , 它 让 你 更 多 更 快 地 了 解 Python 是 怎么 做 的 , 从 而 做 得 “和 Python 一 样 ”。 当 你 对 Python 
的 一 些 问题 百 思 不 得 其 解 时 ， 这 本 书 也 许可 以 从 不 同 的 方面 帮助 你 了 解 它 最 底层 发 生 的 故 
事 。 


Python 阅 码 着 匠 一 一 深 居 可 莫 动 态 语 车 项 心 龙 大 





vi 到 推荐 序 二 


最 后 ， 作 为 Python 社区 的 长 期 参与 者 ， 希 望 更 多 的 代码 人 不 但 能 使 用 Python 语言 去 
完成 自己 的 工作 ， 也 希望 能 有 更 多 的 人 通过 这 本 书 成 为 Python 语言 的 开发 者 ， 更 希望 中 
国有 越 来 越 多 的 Python 开发 者 。 


黄 冬 
2008 年 4 月 于 北京 
下 雨 的 深夜 
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非常 高 兴 看 到 又 一 本 原创 的 Python 图 书 出 版 。 


说 起 来 ， 我 和 Python 还 算 有 一 点 缘分 。 在 2000 年 的 时 候 ， 一 次 非常 偶然 的 机 会 我 接 
触 到 Python， 当 时 网 上 的 资料 非常 少 ,不 知 天 高 地 厚 的 我 况 冒 失地 接手 了 国内 第 一 本 引进 
版 Python 图 书 的 合作 翻译 工作 ， 往 事 不 堪 回 首 。 记 得 当时 经 常 有 人 问 我 Python 能 用 来 做 
什么 …… 而 我 能 举 出 来 的 例子 的 确 灾 塞 可 数 。 


历经 数 年 的 发 展 ，Python 已 今 非 昔 比 ， 各 领域 都 不 乏 Python 的 成 功 案例 。 就 拿 Web 
方面 来 说 , 正如 PHP 给 Yahoo! 带 来 的 巨大 动力 , Python 在 新 一 代 的 互联 网 霸主 一 Google 
内 部 早 就 充当 了 重要 角色 ， 成 为 排名 第 三 的 “官方 语言 "。 而 就 在 前 一 段 时 间 ，Google 革 
命 性 的 App Engine 产品 一 经 推出 立即 引起 了 莫大 关注 ， 其 首选 开发 语言 就 是 Python。 


纵 观 国内 技术 环境 ，Python 语言 仍 处 于 慢 热 的 状态 ， 应 用 仍然 不 算 广泛 。 不 过 我 们 也 
已 经 有 称 得 上 比较 成 功 的 实现 案例 了 ， 比 如 著名 的 Web 2.0 的 代表 站 点 一 一 豆 其 网 即 是 用 
Python 开发 的 ， 创 始 人 杨 勃 对 Python 的 效率 和 优雅 赞誉 有 加 。 


Python 也 是 权威 机 构 TIOBE 评 出 的 2007 年 度 编程 语言 ， 这 些 “ 利 好 ”的 消息 也 将 进 
而 带动 新 一 轮 的 技术 走向 ， 预 示 着 Python 更 大 规模 的 流行 时 代 即 将 到 来 。 


话说 回来 ,“ 开 放 平 台 ” 在 未 来 几 年 一 定 是 个 不 可 避免 的 技术 趋势 ， 而 跟着 大 厂商 的 
平台 亦 步 亦 趋 ， 照 猫 画 虎 ， 想 必 也 能 开发 出 来 繁多 的 周边 应 用 ， 但 开放 未 必 对 所 有 人 都 是 
个 好 事情 ， 久 而 久之 开发 者 难免 有 盲人 摸 象 之 感 ， 很 难 掌握 全 局 ， 掌 握 关键 架构 技术 ， 故 
深入 研究 Python 的 基础 技术 仍 不 可 少 。 这 本 《Python 源码 齐 析 》 的 出 版 恰 是 好 时 机 ， 弥 
补 了 国内 图 书 在 这 方面 的 空白 此外， 作者 在 Python 领域 的 精耕细作 的 研究 精神 亦 值得 
学 习 。 
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研读 、 分 析 源 代码 乃 是 提高 编程 技能 的 一 条 捷径 ， 应 丁 解 牛 方 能 游 力 有 余 ， 夯 实 基础 
方 可 构建 高 楼 大 厦 。 


读 这 本 《Python 源码 剖析 》 就 像 一 次 探险 之 旅 ， 祝愿 朋友 们 能 够 获得 一 次 愉悦 的 阅读 
体验 。 


冯 大 糙 
2008 年 4 月 于 杭州 
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第 一 次 接触 Python, 是 通过 《程序 员 》 杂 志 上 “恶魔 吹 着 笛子 来 ”的 系列 文章 一 一 《 自 
由 与 繁荣 的 国度 》。 但 是 真正 开始 使 用 Python， 还 是 在 进入 实验 室 ， 开 始 研 究 自 然 语言 处 
理 和 信息 检索 之 后 。 自 然 语言 处 理 其 实 大 部 分 的 时 间 都 在 与 文本 打交道 ， 需 要 进行 大 量 的 
对 文本 分 析 、 统 计 的 工作 。 开 始 的 时 候 ， 我 使 用 的 是 C++， 因 为 大 学 的 时 候 第 一 门 编程 语 ， 
言 课 就 是 C， 其 后 转向 C++ 是 很 自然 的 迁移 。 那 时 候 觉得 C++ 很 有 一 种 高 贵 的 感觉 ， 因 为 
C++ 足够 复杂 ， 有 足够 多 的 trick， 尤 其 是 像 模板 和 泛 型 编程 这 样 的 新 鲜 玩意 儿 。 掌 握 这 么 
复杂 的 东西 ， 也 就 意味 着 你 的 脑袋 跟 这 东西 一 样 复杂 ， 这 是 很 能 让 人 虚荣 的 一 件 事 。 


C++ 的 复杂 性 是 个 仁者 见 仁 , 管 者 见 智 的 话题 , 但 其 实 回 到 文本 处 理 这 个 话题 上 来 说 ， 
C++ 的 STL 在 很 大 程度 上 已 经 足够 好 用 了 。 文 本 处 理 不 是 服务 器 ， 所 以 不 需要 考虑 自己 管 
理 内 存 ， 不 需要 考虑 这 个 模式 那个 模式 ，STL 提供 了 足够 多 的 工具 ， 简 单 组 装 一 下 就 可 以 
用 了 。 

但 俗话 说 得 好 ,“ 不 怕 不 识 货 ， 就 怕 货 比 货 "， 当 我 开始 尝试 用 Python 来 进行 日 常 的 
工作 之 后 ， 突 然 发 现 C++ 太 复 杂 了 。 对 于 Python， 我 的 感觉 只 有 四 个 字 : 摧 枯 拉 朽 。 我 只 
需要 简单 地 写 一 个 1 = [ ]， 再 也 不 用 写 诸如 list< mp<string, string> > 1 = list< 
map<string，string> >() 这 样 折磨 人 有 眼 的 东西 了 ， 这 使 得 代码 量 急剧 减少 。 对 于 采用 
Python 这 样 的 英明 决策 ， 我 想 ， 最 满意 的 就 是 我 的 手指 头 了 。 

随 着 对 Python 的 逐渐 熟悉 ， 我 越 来 越 惊 改 于 Python 简洁 的 表达 ， 强 大 的 功能 。 尤 其 
是 Python 表现 出 来 的 强烈 的 动态 性 。 比 如 下 面 这 段 与 解释 器 的 交互 过 程 : 
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这 样 的 动态 能 力 ， 在 当时 简直 让 我 目 胜 口 呆 。 从 那 时 候 起 ， 我 就 有 了 一 个 强烈 的 好 奇 
心 : Python 是 怎么 实现 的 ? 我 们 知道 Python 是 用 C 语言 实现 的 ， 那 这 些 神 奇 的 动态 能 力 
是 怎么 通过 C 语言 完成 的 呢 ? 


于 是 我 开始 上 网 搜索 资料 ， 然 而 我 发 现 ， 详 细 介 绍 动态 语言 实现 原理 的 资料 根本 就 没 
有 ， 只 有 一 些 零散 的 信息 散落 在 各 种 资料 中 。 再 具体 到 Python， 唯 一 一 篇 与 Python 实现 
相关 的 资料 是 《The Architecture of Python》， 这 是 美国 一 所 大 学 的 学 生 在 一 次 课程 设计 中 
产生 的 文档 。 这 份 文档 篇 幅 太 短 ， 内 容 也 太 简略 了 ， 只 包含 了 一 些 最 简单 的 信息 ， 即 使 对 
作为 Python 中 对 象 模型 关键 的 PyObject 结构 体 ， 也 仅仅 有 一 些 简 单 的 描述 。 最 要 命 的 是 ， 
其 研究 的 对 象 是 Python 2.1, 版 本 太 久 远 了 。 而 我 准备 开始 研究 Python 如 何 实现 时 , Python 
已 经 进化 到 了 2.4，Python 的 对 象 模型 已 经 发 生 了 重大 的 改变 ， 所 以 这 份 文 档 对 于 想 要 深 
入 掌握 Python 的 实现 来 说 ， 几 乎 没有 太 大 作用 ， 让 人 有 一 种 “ 食 之 无 味 、 弃 之 可 惜 ” 的 
感觉 (这 份 文档 目前 在 Google 上 已 经 搜索 不 到 了 )。 但 不 管 怎么 说 ， 这 份 文档 给 了 我 对 于 
Python 实现 的 一 个 最 初 的 认识 ， 给 了 我 一 个 起 始点 。 

2004 年 年 末 ， 我 开始 了 探索 Python 如 何 实现 的 漫漫 长 征 。 我 选择 了 编译 这 个 最 初 的 
切入 点 ， 但 是 很 快 我 就 发 现 ，Python 的 编译 过 程 中 大 量 地 使 用 了 Python 中 的 一 些 内 秋 对 
象 ， 所 以 我 将 切入 点 转向 了 Python 的 对 象 模型 。 在 完成 了 Python 对 象 模型 和 内 建 对 象 的 
剖析 后 ， 又 重新 转 回 到 编译 过 程 的 剖析 ， 我 发 现 Python 的 编译 过 程 实际 上 就 是 一 个 标准 
的 编译 过 程 ， 在 任何 一 本 关于 编译 原理 的 书 上 ， 你 都 可 以 找到 它 的 实现 过 程 。 于 是 ， 我 做 
了 一 个 决定 , 不 再 剖析 Python 的 编译 过 程 , 而 是 以 Python 的 编译 结果 为 起 点 , 开始 Python 
虚拟 机 的 剖析 ， 正 因为 这 样 ， 你 在 本 书 中 看 不 到 对 Python 的 编译 过 程 的 剖析 ， 不 过 别 着 
急 ， 你 能 够 看 到 Python 的 编译 结果 ， 对 于 理解 Python 虚拟 机 的 实现 来 说 ， 这 个 编译 结果 
才 是 最 重要 的 。 

很 快 ， 第 一 篇 关于 PyObject 的 笔记 出 炉 了 ， 紧 接着 ，Python 中 最 简单 的 对 象 一 一 加 
数 对 象 的 笔记 也 诞生 了 。 到 了 这 个 时 候 ， 我 开始 对 完成 这 项 工作 有 信心 了 ， 虽 然后 来 的 经 
历 证 明 我 当时 的 信心 是 多 么 的 虚妄 。 也 是 在 这 个 时 候 ， 我 开始 看 到 Python 实现 的 精妙 之 
处 ， 完 成 这 项 工作 的 兴趣 和 动力 也 越 来 越 强 。 
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前 言 下 xi 


随 着 对 Python 挖掘 的 不 断 深 入 ， 我 开始 碰 到 一 个 又 一 个 的 瓶颈 ， 虚 拟 机 的 框架 、 函 
数 的 实现 、class 机 制 、module 的 动态 加 载 …… 在 没有 太 多 外 部 资料 的 情况 下 ， 要 想 通过 
源码 弄 明白 一 样 东 西 ， 实 在 是 太 艰 难 了 。 有 的 时 候 ， 由 于 难度 太 大 ， 我 甚至 中 断 了 剖析 的 
工作 ， 直 到 很 久 以 后 ， 才 在 好 奇 心 和 兴趣 的 强烈 驱使 下 重新 开始 。 正 是 由 于 这 样 的 砍 太 绊 
绊 ， 到 了 2007 年 底 ， 这 项 工作 才 算 完成 。 花 了 两 年 多 的 时 间 ， 除 了 难度 方面 的 原因 ， 鸡 
一 个 原因 是 2006 年 底 ，Python 社区 发 布 了 Python 2.5， 为 了 保证 与 最 新 的 Python 实现 保 
持 一 致 ,我 将 所 有 的 剖析 跟 Python 2.5 又 对 照 了 一 遍 , 所 以 , 你 手 上 这 本 书 , 跟 最 新 的 Python 
实现 是 一 致 的 。 


谁 需要 这 本 书 





什么 人 需要 这 本 书 昵 ? 咕 ， 当 然 ， 我 自然 是 希望 需要 这 本 书 的 人 越 多 越 好 ， 我 巴不得 
所 有 的 程序 员 人 手 一 本 @。 从 我 自身 的 体会 来 说 , 我 觉得 以 下 三 类 人 都 会 对 这 本 书 感 兴 趣 : 
Python 程序 员 、 动 态 语 言 爱好 者 、C 程序 员 。 : 


Python 程序 员 当 然 能 从 这 本 书 得 到 最 多 的 收获 ， 在 这 本 书 里 ， 你 能 找到 Python 所 有 
魔法 的 最 终 来 源 ， 每 一 个 看 似 神奇 的 特性 都 会 得 到 一 个 最 朴素 的 解释 ， 每 一 个 所 谓 的 高 级 
特性 ， 比 如 decorator， 都 会 变 成 你 手中 平凡 的 工具 。 当 然 ， 你 还 会 对 你 编写 的 Python 代 
码 有 一 个 最 透彻 的 认识 。 比 如 下 面 这 段 代码 ， 为 什么 不 能 加 载 D 呢 ? 
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当 最 终 完 成 对 Python 的 剖析 之 后 ， 我 发 现 对 于 Python 代码 ， 可 以 有 一 种 洞 彻 肺腑 的 
感觉 。 看 着 代码 ， 在 脑海 里 就 完全 可 以 出 现 虚拟 机 在 后 台 如 何 运作 的 情景 ， 这 种 感觉 非常 
棒 。 

除了 Python 程序 员 ， 其 他 的 动态 语言 爱好 者 都 能 从 这 本 书 得 到 很 多 有 益 的 信息 。 不 
论 是 Python 在 其 他 平台 的 实现 一 一 IronPython、Jython， 还 是 其 他 的 动态 语言 一 一 Ruby、 
Javascript， 只 要 你 对 动态 语言 感 兴趣 ， 想 要 了 解 动态 语言 的 实现 机 理 ， 那 赶紧 把 这 本 书 搬 
回 家 。 动 态 语言 在 大 致 的 架构 和 实现 机 制 上 ， 有 很 多 的 相似 之 处 。 
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这 本 书 在 本 质 上 是 探讨 如 何 用 C 语言 实现 Python 这 门 动态 语言 的 ， 所 以 C 程序 员 能 
从 中 获得 巨大 的 收益 。 作 为 一 个 优秀 的 开源 项 目 ， 通 过 阅读 它 的 源码 ，C 程序 员 可 以 从 中 
汲取 世界 上 最 优秀 的 C 程序 员 的 经 验 。 当 然 ， 对 于 另 一 部 分 特殊 的 C 程序 员 ， 这 本 书 的 
价值 就 更 大 了 ， 如 果 你 需要 为 Python 编写 C 扩展 模块 ， 或 者 更 酷 地 ， 你 想 要 在 你 的 系统 
中 嵌入 一 个 脚本 引擎 ， 就 像 很 多 网 络 游戏 中 的 脚本 引擎 ， 那 么 本 书 就 是 你 必 备 的 了 ， 


尽管 这 本 书 看 上 去 讨论 的 是 个 高 深 的 话题 , 但 其 实 对 读者 知识 储备 的 要 求 相当 少 。 只 
需要 C 语言 和 Python 语言 的 基础 知识 。 

1. C 语言 的 基础 知识 是 必须 的 ， 但 是 不 必 多 么 精通 C， 只 需要 能 看 懂 C 代码 就 可 以 。 

2. Python 语言 的 基础 知识 也 是 必须 的 ， 这 更 不 是 问题 了 ， 有 编程 基础 的 读者 ， 半 天 
的 时 间 ， 就 能 看 懂 所 有 的 Python 语法 ， 这 本 书 基本 上 不 涉及 任何 Python 的 库 在 线程 部 
分 ， 有 一 些 线程 库 的 介绍 )， 所 以 ， 你 只 需要 熟悉 基本 的 Python 语法 就 可 以 了 。 


如 何 阅 读 这 本 书 





关于 这 个 问题 ， 我 的 建议 是 ， 不 要 只 阅读 ， 更 要 实践 。 最 基本 的 ， 你 应 该 打开 自己 最 
熟悉 的 代码 浏览 工具 ， 在 真实 的 源码 和 书 中 的 描述 之 间 比 对 揣摩 。 更 进一步 ， 你 可 以 随 着 
本 书 的 进展 ， 动 手 的 鼓 捣 鼓 Python 的 源码 ， 用 真实 的 输出 验证 书 中 的 描述 和 你 的 理解 。 
对 于 技术 这 个 东西 ， 再 生花 的 妙笔 也 不 能 让 你 仅仅 通过 “阅读 ” 便 能 乾坤 在 握 ， 唯 有 亲身 
尝试 ， 才 能 深 解 其 中 三 昧 。 


为 了 帮助 读者 更 好 地 利用 此 书 ， 我 在 Google Code 上 发 起 了 一 个 旨 在 可 视 化 Python 
虚拟 机 的 开源 项 目 一 一 Cobra( http;yYeode.google.comyp/python-cobra/), 其 目的 在 于 将 Python 
虚拟 机 在 执行 一 条 条 字 节 码 指令 时 的 运行 时 环境 ， 以 及 虚拟 机 的 状态 变化 ， 以 可 视 的 形式 
展现 出 来 ， 以 更 加 生动 形象 的 方式 加 深 读者 对 Python 虚拟 机 的 理解 。 同 时 ， 我 也 期 望 这 
个 项 目 能 成 为 有 兴趣 的 读者 锻炼 自己 改造 Python 虚拟 机 的 能 力 的 平台 。 该 项 目 还 处 于 发 
展 初期 ， 目 前 仅仅 实现 了 一 般 表 达 式 的 可 视 化 ， 我 会 尽快 增强 Cobra 的 功能 ， 也 希望 感 兴 
趣 的 读者 一 起 加 入 到 这 个 有 趣 的 项 目 中 来 。 下 图 是 目前 Cobra 对 简单 的 一 般 表达 式 的 可 视 
化 效果 。 
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代码 下 载 


本 书 还 提供 了 书 中 涉及 到 的 两 个 简单 项 目的 源 代码 ， 一 个 是 对 Python 的 最 简化 模拟 
的 Small Python， 另 一 个 是 对 pyc 文件 进行 解析 的 解析 器 。 两 个 项 目的 代码 都 可 以 在 博文 
对 本 书 的 支持 网 站 下 载 : http;ybv.csdn.net/resource/pythonympx.rar。 


联系 作者 


面 对 如 此 复杂 而 又 伟大 的 Python， 以 一 本 书 的 篇 幅 ， 难 免 对 有 的 主题 的 涉及 会 显得 简 
略 ; 另 一 方面 ， 以 一 人 之 力 , 在 剖析 与 撰写 中 也 难免 会 有 错误 与 遗漏 。 如 果 你 有 什么 建议 ， 
或 者 认为 我 还 遗漏 了 什么 东西 ,非常 期 待 与 你 交流 。 你 可 以 通过 search.pythoner@gmail. com 
与 我 直接 联系 ;或 者 ， 如 果 你 愿意 结识 更 多 的 Python 同道 ， 你 也 可 以 访问 中 文 Python 用 
户 组 (https;yYYgroups.google.com/group/python-cn)， 把 你 的 心得 与 中 国 的 Python 爱好 者 一 
起 分 享 ， 我 也 会 一 直 在 那里 对 本 书 进行 支持 。 
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坪 文 视点 资讯 有 限 公司 (BROADVIEW Information Co.,Ltd,〉 基 信息 产业 部 直属 的 中 央 一 级 科技 
与 教育 出 版 社 一 一 电子 工业 出 版 社 (PHEI) 与 国内 最 大 的 开 技 术 网 站 CSDN.NET 和 和 搬 具 专业 术 淮 的 
IT 杂志 社 《 程 序 员 》 合资 成 立 的 以 人 T 苹 书 出 版 为 主 业 、 并 展 相关 信息 和 知识 增值 服务 的 资讯 公司 。 

我 们 的 理念 是 : 创新 专业 出 版 体制 ， 搁 养 职 业 出 版 队伍 ， 打造 精品 出 版 品牌 ; 完善 全 面 出 版 服务 ， 

秉承 博文 视点 的 理念 ， 博 文 视点 的 产 总 线 为 面向 IT 专业 人 员 的 出 版 物 和 相关 服务 。 博 文 视点 将 
重点 做 好 以 下 工作 ; 

(1) 在 技术 镇 域 开发 专业 作 【 译 ) 者 群体 和 高 质量 的 原创 疼 书 

(2) 在 图 书 领域 建立 专业 的 选 题 策划 和 审 迹 机 制 

(3) 在 市 场 领域 开创 有 效 的 官 传 手段 和 营销 渠道 

博文 视点 有 效 地 综合 了 电子 工业 出 版 社 、《 程 序 员 》 杂志 社 和 CSDNJNET 的 资源 和 人 才 ， 建 史 
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为 中 国 最 具 影 响 力 的 专业 IT 出 版 和 服务 提供 商 

作为 合资 公司 ， 博 文 视点 的 团队 柄 合 了 各 方面 的 精英 为 量 : 原 电子 工业 出 版 社 歼 图书 专业 出 版 
实力 的 代表 部 门 一 一 计算 机 图 书记 业 部 的 团队 ; 《程序 员 》 杂 志 社 和 CSDN 网 站 的 主创 人 员 : 著名 
IT 专业 图 妆 争 划 人 局 等 女 二 了 四 这 是 -个 葛 合 专业 技术 人 员 租 稚 业 出 版 人 员 的 硬 队 ;这 是 一 
个 充满 创新 意 A 让 下 re : = 、 泡 求 带 越 的 团队 。 

与 飞 程 序 贡 》 志和 CSD N 网 站 dl 最 有 效 于 的 放 式 形 孔子 出 版 守 源 ， 媒体 

的 器件。 
乱 多 地 二 地 信 息 时 代 的 机 过 与 挑战 ! 
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Python 源 丰 


在 开始 分 析 Python 的 实现 之 前 ,我 们 有 许多 的 准备 工作 要 做 。 比 如 ， 首 先 应 该 了 解 
一 下 Python 的 整体 架构 ， 以 期 对 Python 的 实现 有 一 个 宏观 的 认识 。 此 外 ， 我 们 还 要 介绍 
如 何 从 源 代码 编译 出 Python 可 执行 程序 。 因 为 在 整个 剖析 源码 的 过 程 中 ， 一 个 最 好 的 学 
习 方法 就 是 不 断根 据 掌握 的 知识 修改 Python 的 源 代码 ， 以 印证 自己 的 猜想 和 知识 。 因 此 ， 
本 章 的 目的 是 为 进入 Python 源码 剖析 做 一 个 充足 的 准备 。 


Python 总 体 架 构 


在 最 高 的 层次 上 ，Python 的 整体 架构 可 以 分 为 三 个 主要 的 部 分 ， 整个 架构 如 图 0-1 所 
示 。 在 图 的 左边 ， 是 Python 提供 的 大 量 的 模块 、 库 以 及 用 户 自 定义 的 模块 。 比 如 在 执行 
import o5 了 时， 这 个 os 就 是 Python 内 建 的 模块 ， 当然 用 户 还 可 以 通过 自 定义 模块 来 扩展 
Python 系统 。 


在 图 0-1 的 右边 ,是 Python 的 运行 时 环境 ,包括 对 象 /类 型 系统 (Object/Type structures)、 
内 存 分 配器 (“Memory Allocator) 和 运行 时 状态 信息 “Current State of Python)。 运 行 时 状 
态 维护 了 解释 器 在 执行 字 节 码 时 不 同 的 状态 (比如 正常 状态 和 异常 状态 ) 之 间 切 换 的 动作 ， 
我 们 可 以 将 它 视 为 一 个 巨大 而 复杂 的 有 穷 状态 机 。 内 存 分 配器 则 全 权 人 负责 Python 中 创建 
对 象 时 ， 对 内 存 的 申请 工作 ,实际 上 它 就 是 Python 运行 时 与 C 中 malloc 的 一 层 接口 。 而 
对 象 /类 型 系统 则 包含 了 Python 中 存在 的 各 种 内 建 对 象 ， 比 如 整数 、1list 和 dict， 以 及 
各 种 用 户 自 定义 的 类 型 和 对 象 。 
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2 昌 Python 源 到 剖析 一 -一 编译 Python 


在 中 间 的 部 分 ， 可 以 看 到 Python 的 核心 一 一 解释 器 (interpreter)， 或 者 称 为 虚拟 机 。 
在 解析 器 中 ， 箭 头 的 方向 指示 了 Python 运行 过 程 中 的 数据 流 方向 。 其 中 Scanner 对 应 词法 
分 析 ， 将 文件 输入 的 Python 源 代码 或 从 命令 行 输入 的 一 行 行 Python 代码 切 分 为 一 个 的 
token; Parser 对 应 语法 分 析 ， 在 Scanner 的 分 析 结 果 上 进行 语法 分 析 ， 建 立 抽象 语法 树 
(AST); Compiler 是 根据 建立 的 AST 生成 指令 集合 一 一 Python 字 节 码 (byte code)， 就 像 
Java 编译 器 和 C# 编 译 器 所 做 的 那样 ， 最 后 由 Code Evaluator 来 执行 这 些 字 节 码 。 因 此 ， 
Code Evaluator 又 可 以 被 称 为 虚拟 机 。 


图 中 ， 在 解释 器 与 右边 的 对 象 /类 型 系统 、 内 存 分 配器 之 间 的 箭头 表示 “使 用 ”关系 ; 
而 与 运行 时 状态 之 间 的 箭头 表示 “修改 ”关系 ， 即 Python 在 执行 的 过 程 中 会 不 断 地 修改 
当前 解释 器 所 处 的 状态 ， 在 不 同 的 状态 之 间 切 换 。 
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图 0-1 Python 总 体 架 构 


0.2 Python 源 代码 的 组 织 


中 国有 句 老 话 一 一 巧 妇 难为 无 米 之 炊 。 要 分 析 Python 源码 ， 普 先 要 获得 Python 源码 。 
Python 源码 可 以 从 Python 的 官方 网 站 ChttpyAvivw.python.org) 《如 图 0-2 所 示 ) 自由 下 载 。 
当前 Python 的 最 新 发 布 版 本 是 2.5.2， 在 本 书 中 ,我 们 剖析 的 对 象 是 2006 年 12 月 19 日 正 
式 发 布 的 Python 2.5。 
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0.2，Python 源 代码 的 组 织 。 哪 3 


i Eo 也 才 个 [2 http:/ /ww. python. org/download/releases/2.£ 5/ 
秆 上 由 加 最 新 头 杀 他 XPlanner 加 经验 |] 192. 168. 1. 10 中 BuaFree 
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We are pleased to announce the release of Python 2.5 (FINAL) 
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图 0-2 下 载 Python2.5 源码 


下 载 了 Python 的 源 代 码 压缩 包 并 解压 后 ， 可 以 看 到 如 图 0-3 所 示 的 目录 结构 。 下 面 列 
出 了 一 些 主要 目录 包含 的 文件 : 


G3 Include 


田 [区 Lib 


BD ac 


mB Jisc 


DD Modules 

而 D3 Objects 
加 Parser 

是 加 PC 
BD PCbuild 
BD PCbuild8 
rm Python 

田 | RISCOS 





图 0-3 ”Python 目录 结构 


Include :该 目录 下 包含 了 Python 提供 的 所 有 头 文件 ， 如 果 用 户 需 要 目 己 用 C 或 C++ 
来 编写 自 定义 模块 扩展 Python， 那 么 就 需要 用 到 这 里 提供 的 头 文件 。 


Python 源码 动 折 一 深 伟 区 和 医 动态 泛音 克 作 花环 


4 ” 甸 Python 源码 剖析 一 一 编译 Python 


Lib : 该 目录 包含 了 Python 自 带 的 所 有 标准 库 ，Lib 中 的 库 都 是 用 Python 语言 编写 
的 。 


Modules : 该 目录 中 包含 了 所 有 用 C 语言 编写 的 模块 ， 比 如 ranaoms cstringIO 等 。 
Modules 中 的 模块 是 那些 对 速度 要 求 非常 严格 的 模块 ， 而 有 一 些 对 速度 没有 太 严 格 要 求 的 
模块 ， 比 如 os， 就 是 用 Python 编写 ， 并 且 放 在 Lib 目录 下 的 。 


Parser :该 目录 中 包含 了 Python 解释 器 中 的 Scanner 和 Parser 部 分 ， 即 对 Python 源 
代码 进行 词法 分 析 和 语法 分 析 的 部 分 。 除 了 这 些 , Parser 目录 下 还 包含 了 一 些 有 用 的 工具 ， 
这 些 工 具 能 够 根据 Python 语言 的 语法 自动 生成 Python 语言 的 词法 和 语法 分 析 器 , 与 YACC 
非常 类 似 。 

Objects : 该 目录 中 包含 了 所 有 Python 的 内 建 对 象 ， 包 括 整 数 、1ist、Gicat 等 。 同 
时 ， 该 目录 还 包括 了 Python 在 运行 时 需要 的 所 有 的 内 部 使 用 对 象 的 实现 。 


Python : 该 目录 下 包含 了 Python 解释 器 中 的 Compiler 和 执行 引擎 部 分 ， 是 Python 
运行 的 核心 所 在 。 


PCBuild : 包含 了 Visual Studio 2003 的 工程 文件 ， 研 究 Python 源 代 码 就 从 这 里 开始 
(本 书 将 采用 VS2003 对 Python 进行 编译)。 


PCBuild8 : 包含 了 Visual Stuido 2005 使 用 的 工程 文件 。 


0.3 ”Windows 环境 下 编译 Python 


下 载 了 Python 的 源 代码 之 后 ， 我 们 就 可 以 走出 剖析 Python 源码 的 第 一 步 了 一 一 编译 
Python 。 


Python 2.5 提供 了 在 Visual Studio 2003 和 Visual Studio 2005 环境 下 进行 开发 的 工程 文 
件 ， 在 PCBuild 目录 下 可 以 看 到 VS2003 的 工程 文件 ，PCBuild8 目录 下 是 VS2005 的 工程 
文件 。 这 里 使 用 的 是 VS2003 的 工程 文件 。 打 开工 程 文件 后 ， 我 们 还 需要 进行 一 些 设置， 
才能 成 功 编译 。 


首先 ， 我 们 需要 激活 VS2003 的 配置 对 话 框 ( 如 图 0-4 所 示 ): 
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在 配置 对 话 框 中 ， 


_bsddb 
_ctypes 
_ctypes_test 
_elementtree 
_ 孔 Si 
_sovket 
_sqlite3 
B81 
_testcapi 
_tkinter 

最 bz2 
最 nake buildinfo 
由 国 make_versioninfo 
ES ee 





0.3 Windows 环境 下 编译 Python 只 5 


| 芒 ( Buid solution 


Rebuild Solution 

Gean Solution 

Batch Buid... 
Configuration Manager,.. 
Project Dependencies... 
Project Build Order,,. 
Add 

Set StartiJp Projects.,, 


Es 

图 0-4 调 出 设置 属性 对 话 框 
首先 要 做 的 就 是 更 改 Startup Project，Python2.5 中 默认 设置 的 是 
_bsddb， 我 们 需要 将 其 改 为 Python (如 图 0-5 所 示 )。 


全 Single Startup Project 


_ssl 


_testcani 


Configeuration Pr 


[python wv | 





图 0-5 改变 startup project 


由 于 我 们 剖析 的 上 只 是 Python 的 核心 部 分 ， 不 会 涉及 工程 中 的 一 些 标准 库 和 其 他 的 模 
块 , 所 以 可 以 将 它们 从 编译 的 列表 中 删除 。 点 击 配置 对 话 框 左边 列表 框 中 的 “Configuration 
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各 Python 源码 剖析 一 一 编译 Python 


Properties” 后 ， 会 出 现 当前 配置 为 需要 编译 的 子 工程 ， 取 消 多 余 的 子 工程 的 选中 状态 ， 只 
保留 pythoncore 和 python pe ais 0-6 所 大 Xe 


_tkinter 

bz2 

make buildinfo 
Nake versioninfo 


pythoncore 
pythonw 





图 0-6 取消 不 相关 子 工程 


需要 进行 的 改动 就 是 这 么 多 了 ， 但 是 完成 这 些 改 动 后 ， 如 果 马 上 开始 编译 ， 那 么 编译 
还 是 会 失败 (如 图 0-7 所 示 》: 


NE herne +0 add a A "nes 
?珍品 fat fatal ETTOT C03: Cannot open precompiled header file: ?. .ANx86-tenr 
!B 0 fatal error LNK1181: carmot open input file ， . \python25_d. 1ib’ 


0-7 ”编译 失败 


原因 是 我 们 还 需要 一 个 必要 的 文件 ， 这 个 文件 在 Python2.5 的 源码 包 中 没有 提供 ， 必 
及 要 通过 编译 make_buildinfo 和 make_versioninfo 子 工程 〈 如 图 0-8 所 示 ) 才能 生成 ; 





| Properties 
| 





”图 0-8 编译 We i 和 和 ee 由 下 于 沁 


好 了 ， 现 在 再 编译 ， 一 切 都 会 顺利 完成 了 。 编 译 的 结果 都 放 在 build 文件 夹 下 ， 主 要 
有 两 个 : python25.dll 和 python.exe。 可 以 看 到 pythonexe 非常 小 ,实际 上 Python 解释 器 的 
全 部 代码 都 在 python25.dll 中 。 对 于 WinXP 操作 系统 , 在 安装 python 时 , 这 个 python25.dll 
会 被 拷贝 到 C:\Windows\system32 下 。 


月 pon 潭 好 出 匠 - 一 淡 度 荣 和 关 动 改 这 吝 大 人心 龙 洲 
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0.4 _ Unix/Linux 环境 下 编译 Python 


在 Linux 环境 下 编译 Python 就 没有 那么 麻烦 了 ， 按 照 标准 的 tarball 安装 软件 的 流程 ， 
顺序 使 用 下 列 三 个 命令 ， 即 可 完成 Python 的 安装 与 编译 : 
> configure -prefix=< 你 期 望 Python 安装 到 的 目录 的 路 径 > 
> make 
> make install 

经 过 这 三 个 步骤 ， 我 们 在 第 一 步 中 指定 的 安装 路 径 下 就 会 显示 Python 安装 的 结果 。 
目录 bin 下 存放 的 是 可 执行 文件 ;目录 lib 下 存放 的 是 Python 的 标准 庆 ; lib/python2.5/config 
下 存放 的 是 libpython2,5.a， 用 C 语言 对 Python 进行 扩展 时 需要 用 到 这 个 静态 库 。 

需要 注意 的 是 , 这 样 编译 之 后 的 结果 , bin 目录 下 的 Python 可 执行 文件 是 静态 链接 的 。 
如 果 想 要 编译 成 动态 链接 的 ， 即 编译 的 结果 中 出 现 libpython2.5.s0o0， 那 么 需要 在 第 一 步 加 
入 “enable-shared” 这 个 指令 ， 从 而 编译 后 得 到 的 libpython2.5.so 就 会 出 现在 lib 目录 下 。 

以 后 我 们 在 对 Python 源码 进行 修改 时 ,都 不 会 使 用 系统 相关 的 APL, 所 以 我 们 添加 的 
代码 都 没有 平台 相关 性 问题 ， 无 论 是 Windows 环境 ， 还 是 Unix/Linux 环境 ， 都 可 以 正常 
编译 并 运行 。 
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修改 源 代码 ? 这 还 有 什么 好 说 的 吗 ? 打开 VS2003 (Windows 环境 ) 或 者 vi (Linux 
环境 )， 冲 上 去 一 顿 敲 打 键盘 不 就 OK 了 吗 。 确 实 ， 修 改 源 代码 其 实 没有 什么 好 说 的 ， 不 
过 有 一 些 以 后 修改 源 代码 时 需要 注意 的 事项 ， 这 里 先 提 一 下 ， 

如 果 要 观察 Python 执行 过 程 中 的 动态 的 行为 ， 当 然 可 以 使 用 VS 自 带 的 debugger, 不 
过 有 了 时候 也 需要 在 其 中 输出 一 些 信 息 。 对 于 输出 信息 ,使 用 pzintf 最 简单 。 但 是 princi 
要 输出 Python 中 的 某 个 对 象 却 不 是 那么 方便 ， 幸 好 Python 的 C API 中 提供 了 一 个 输出 对 


象 的 接口 : 
[object .Hh] DA ma eh 
int el it 让 天 小 二 天 


比如 我 们 在 int_print 中 输出 一 个 整数 ， 可 以 将 int_print 修改 成 如 下 的 函数 


~ I 


me T] mi -1 






[intobject.c] A A 外 1 让 
pe int i many Mt dint tig) WB 
/Vai by Mi ll Us ee We RA Pu 
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PYObject* gtr = = PyString_Fromstring(”i 通 i int_print®); | 





PyObject_Pprint (atr, gtdou | jal Te 0 eh a Al, 由 对 
printf(“\n”); - | pe | | 1 

-” E 
ey "$1d", ob ival)’ C 0 才 | 


' 出 
i | US 
中 = fr 1| 


return 0 
} 3 e 上 机 Ys SL TN 上 
其 中 粗 体 部 分 为 我 们 加 入 的 代码 ， PyString_FromString 是 Python 提供 的 另 一 个 C 
API， 用 于 从 C 中 的 原生 字符 数组 创建 出 Python 中 的 字符 串 对 象 。 具 体 它 是 如 何 实 现 的 ， 


现在 我 们 先 不 关心 ， 只 需要 了 解 它 的 功能 就 OK 了 。 
将 Python 重新 编译 后 ， 得 到 新 的 python25.dll， 用 这 个 dll 去 兰 换 system32 目录 下 的 
那个 python25.dll， 我 们 就 可 以 从 Python 运行 时 看 到 希望 输出 的 结果 如 图 0-9 所 示 ; 
>>> print 100 
i am in int_print’ 
100 


图 0-9 在 Python 源码 中 输出 额外 信息 


在 pyobject_print 中 ， 第 二 个 参数 指明 的 是 输出 目标 。 上 面 的 例子 使 用 了 staout， 
指定 了 输出 目标 为 标准 输出 ， 当 我 们 从 命令 行 环境 中 激活 Python 时 ， 没 有 问题 ， 但 是 如 
果 使 用 IDLE 的 话 ， 就 会 发 现 ， 输 出 的 信息 没有 了 。 原 因 是 IDLE 的 输出 目标 已 经 不 是 
stdout 了 ， 说 明 加 入 的 输出 代码 失效 了 。 


在 Python 中 ， 有 一 个 特性 一 一 可 以 自己 重 定向 标准 输出 ， 考 虑 图 0-10 所 示 的 例子 ; 


《open file 《stdout》，mode "内 at Ox00B6F068> 


>> sys.stdout = open( my_stdout, txt ,Ww 





图 0-10 重 定向 标准 输出 
开始 时 ， 标 准 输 出 是 <staout>， 这 也 是 C 中 stdout 所 代表 的 那个 系统 的 标准 输出 。 
随后 ， 我 们 将 Python 的 标准 输出 定向 到 了 my_stdouttxt 中 。 当 再 次 输入 “sys .stdout” 
时 ， 我 们 发 现 屏幕 上 没有 任何 输出 了 ， 因 为 这 时 标准 输出 已 经 被 重 定向 ， 所 以 现在 输出 的 
内 容 已 经 到 my_stdout.txt 中 ， 在 图 0-11 中 显示 了 my _stdouttxt 中 的 内 容 ; 
my_stdout, txt 


ud ] 有 有 4 
1 open file 'my stdouc ,xc mode 1WI at Ox0OO0BD6DAO> 


图 0-11 重 定向 后 的 标准 输出 一 一 my_stdout.txt 
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所 以 ， 同 样 地 ， 如 果 想 让 自己 添加 的 代码 输出 到 IDLE 中 ， 我 们 也 必须 使 用 重 定向 之 
后 的 标准 输出 ， 而 不 能 再 使 用 stdout 这 个 系统 标准 输出 了 。 在 Python 中 ， 我 们 能 通过 
says.out 访问 到 Python 的 标准 输出 , 那么 在 C 一 级 呢 ? Python 也 提供 了 这 样 的 CAPI。 下 
面 的 代码 显示 了 如 何 输出 到 重 定向 后 的 标准 输出 : 


IDEE 1.2 
>>> ImporT SYS 


>>> Sys.stdout 

<idlelib.rpe.RECEroxy obiject at DxODDAZ2FTO> 
>>> rint ~999 

i am in int repr 





图 0-12 在 IDLE 中 输出 信息 
PyTInc_AsLong 的 功能 是 将 Python 的 整数 对 象 转 换 为 C 中 的 int 值 。 这 里 我 们 还 展示 
了 在 监视 Python 内 部 运行 时 的 一 个 技巧 一 一 设置 条 件 ， 这 个 技巧 不 论 是 在 通过 输出 查看 
内 部 状态 时 还 是 使 用 VS 的 debugger 查看 内 部 状态 时 ， 都 非常 有 用 。Python 在 启动 时 会 进 
行 初始 化 ， 在 初始 化 时 ， 会 调用 很 多 函数 ， 其 中 可 能 包含 我 们 想 监 视 的 函数 ， 如 果 这 个 时 
候 在 其 中 不 加 任何 条 件 地 输出 或 是 设置 断 点 , 我 们 会 发 现 要 么 输出 的 信息 将 想 监 视 的 函数 
淹没 了 ， 要 么 debugger 在 断 点 处 停留 时 和 我 们 预想 的 情况 完全 不 一 样 。 


0.6 通 往 Python 之 路 
在 第 1 节 的 图 0-1 中 , 我 们 看 到 了 Python 在 整体 上 的 三 巨头 , 但 是 在 本 书 中 ,不 会 对 


所 有 的 内 容 都 进行 剖析 。 本 书 的 目标 是 彻底 剖析 Python 在 运行 时 的 行为 ， 从 而 为 Python 
程序 员 彻 底 理解 Python 的 运行 机 制 打下 坚实 的 基础 。 当 然 ， 如 果 你 彻底 理解 了 Python 的 


Python 淖 刘 训 折 一 深度 蓉 芝 动 起 兽 言 胡 化 胡 玉 
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运行 时 行为 ,那么 对 于 如 何 利用 Python 的 CAPI 来 编写 Python 扩展 ,如 何在 C 中 内 媒 Python 
解释 器 等 ， 都 变 得 水 到 渠 成 。 


本 书 将 剖析 的 重点 放 在 Python 解释 项 和 Python 运行 时 环境 上 ， 对 于 Python 的 大 量 的 


外 部 库 ， 我 们 将 在 需要 的 时 候 进 行 前 析 。 


在 Python 解释 器 中 ， 我 们 将 大 量 的 精力 放 在 虚拟 机 这 一 部 分 。 对 于 词法 解析 ， 滞 法 


解析 和 编译 ， 本 书 将 不 完全 涉及 。 因 为 对 于 Python 运行 时 行为 的 理解 ， 与 虚拟 机 非常 相 
关 ， 而 中 Python 的 编译 过 程 没 有 太 大 的 关系 。 不 过 ，Python 编译 的 结果 ， 编 译 所 得 的 字 
节 码 指令 ， 对 于 运行 时 行为 则 大 有 影响 。 所 以 书 中 会 将 Python 编译 结果 和 Python 虚拟 机 
结合 起 来 ， 一 起 进行 剖析 。 
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本 书 将 对 Python 源码 的 削 析 分 为 下 面 三 个 部 分 : 


第 1 部 分 ，Python 内 建 对 象 。 主 要 内 容 是 简要 介绍 Python 对 象 模型 ， 以 及 剖析 主要 
内 建 对 象 ， 包 括 整 数 、 字 符 串 、list 和 dict。 在 对 内 建 对象 的 剖析 中 ， 我 们 会 深入 其 
实现 ， 细 致 地 分 析 各 种 对 象 在 C 一 级 是 如 何 被 构建 起 来 的 ， 

第 2 部 分 : Python 虚拟 机 。 主 要 内 容 是 分 析 Python 虚拟 机 执行 字 节 码 指 令 的 过 程 。 
在 这 一 部 分 中 ， 我 们 将 看 到 Python 是 如 何 通 过 虚拟 机 实现 各 种 表达 式 、 控 制 流 、 异 
常 机 制 、 函 数 机 制 及 类 机 制 ， 

第 3 部 分 : Python 高 级 话题 。 主 要 内 容 是 剖析 Python 的 运行 环境 以 及 一 些 高 级 话题 。 
内 容 包括 :Python 运行 环境 的 初始 化 、 动 态 加 载 机 制 、 多 线程 机 制 和 内 存 管理 机 制 。 





在 正式 进入 对 Python 的 剖析 之 前 ， 有 一 些 在 阅读 代码 时 需要 注意 的 事项 ， 这 里 先 提 


st 


> 


在 Python 2.4 的 源码 中 ， 许 多 数值 的 类 型 都 是 int 或 long， 而 在 Python 2.5 的 源码 中 ， 
Python 自 定义 了 一 个 新 的 类 型 py_ssize_t。 一 般 的 ， 凡 出 现 这 个 类 型 的 地 方 ， 都 可 
以 以 int 视 之 。 对 于 非 Python 开发 者 阅读 代码 和 理解 Python 来 说 ， 不 需要 在 意 其 间 
的 差别 。 

Python 有 一 套 相 当 复 杂 的 内 存 管 理 机 制 。 同 时 ， 由 于 历史 的 原因 ， 也 有 一 套 相 当 混 乱 
的 内 存 管理 接口 。 如 果 在 一 开始 就 剖析 其 内 存 管理 机 制 ， 我 想 就 会 令 读 者 望而却步 ， 
所 以 我 们 把 对 内 存 管理 机 制 的 剖析 放 到 了 第 3 部 分 。 但 是 , 在 第 1 部 分 中 你 就 会 看 到 
对 内 存 管 理 接口 的 使 用 。 因 为 创建 对 象 必 先 分 配 内 存 ， 而 它 必须 通过 内 存 管理 接 晶 ， 
所 以 我 们 在 这 里 和 需要 对 这 些 内 存 管 理 接口 进行 一 下 概念 上 的 简化 , 简化 成 大 家 熟悉 的 
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接口 。 通 常 Python 的 源码 中 会 使 用 pyobject_Gc_New、PyObject_Gc_Malloc、 

PyMem_MALLOC，pPyObject_MALLOC 等 API。 只 要 坚持 一 个 原则 ， 即 凡是 以 New 结尾 

的 ， 都 以 C++ 中 的 new 操作 符 视 之 凡是 以 Malloc 结尾 的 ， 都 以 C 中 的 malloc 操 
作 符 视 之 。 下 面 是 几 个 例子 : 






= gid 


[pp 
- . 


在 本 书 中 ,我 使 用 了 大 量 的 图 片 , 一 图 胜 千言 。 在 这 些 图 片 中 ， 大 量 使 用 的 构图 元 素 
就 是 箭头 。 在 大 多 数 情 况 下 ， 稍 头 是 用 来 表示 C 中 的 指针 这 个 概念 的 , 但 是 也 有 某 些 
情况 下 箭头 并 不 表示 指针 ， 这 个 通过 .上 下 文 的 信息 可 以 判断 出 来 ; 另 一 点 需要 注意 的 
是 , 基于 C 中 的 指针 是 指向 某 一 内 存 的 起 始 地 址 ， 所 以 在 图 中 ， 箭头 指 向 的 是 内 存 块 
的 边界 ， 而 不 是 内 存 块 本 身 。 由 于 边界 本 身 就 应 该 是 两 块 内 存 的 交界 ， 所 以 这 个 箭头 
指向 的 是 两 块 内 存 中 的 哪 块 内 存 就 存在 着 模糊 。 在 本 书 中 ， 指 针 指 向 的 内 存 块 都 是 距 
离 指针 最 近 的 向 右 或 向 下 的 那 块 内存 ， 图 0-13 中 给 出 了 一 个 例子 : 


三 


图 0-13 ”指针 图 示 
在 图 0-13 中 ， 深 色 的 方块 就 是 指针 所 指向 的 内 存 块 。 
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对 象 是 Python 中 最 核心 的 一 个 概念 ， 在 Python 的 世界 中 ， 一 切 都 是 对 象 ， 一 个 整数 
是 一 个 对 象 ， 一 个 字符 串 也 是 一 个 对 象 ， 更 为 奇妙 的 是 ， 类 型 也 是 一 种 对 象 ， 整 数 类 型 是 
一 个 对 象 ， 字 符 串 类 型 也 是 一 个 对 象 。 换 名 话说， 面向 对 象 理 论 中 的 “类 ”和 “对 象 ”这 
两 个 概念 在 Python 中 都 是 通过 Python 内 的 对 象 来 实现 的 ， 


在 Python 中 ， 已 经 预先 定义 了 一 些 类 型 对 象 ， 比 如 int 类 型 、string 类 型 、dict 
类 型 等 ， 这 些 我 们 称 之 为 内 建 类 型 对 象 。 这 些 类 型 对 象 实现 了 面向 对 象 中 “类 ”的 概念 ; 
这 些 内 建 类 型 对 象 通过 “实例 化 "， 可 以 创建 内 建 类 型 对 象 的 实例 对 象 ， 比 如 int 对 象 、 
string 对 象 、dict 对 象 。 类 似 的 ， 这 些 实例 对 象 可 以 视 为 面向 对 象 理 论 中 “对 象 ” 这 个 
概念 在 Python 中 的 体现 。 


间 时 ，Python 还 允许 程序 员 通 过 class 五 (object) 这 样 的 表达 式 自 己 定义 类 型 对 象 。 
基于 这 些 类 型 对 象 , 同样 可 以 进行 “实例 化 ”的 操作 , 创建 的 对 象 称 为 “实例 对 象 ”, Python 
中 不 光 有 着 这 些 千差万别 的 对 象 ， 这 些 对 象 之 间 还 存在 着 各 种 复杂 的 关系 ， 从 而 构成 了 我 
们 称 之 为 “类 型 系统 ”或 “对 象 体系 ”的 东西 。 


Python 中 的 对 象 体系 是 一 个 庞大 而 复杂 的 体系 , 如 果 说 在 本 书 的 第 一 章 我 就 试图 将 这 
个 体系 阐释 清楚 ,这 只 能 说 明 我 是 个 六 子 ,在 本 章 中 ,我 们 的 重点 将 放 在 了 解 对 象 在 Python 
内 部 是 如 何 表示 的 ， 更 确切 地 说 ， 因 为 Python 是 由 C 实现 的 ， 所 以 我 们 首先 要 并 清楚 的 
一 个 问题 就 是 : 对 象 ， 这 个 神奇 的 东西 ,在 C 的 层面 ， 究 竞 长 得 是 个 什么 模样 ， 究 况 是 三 
头 六 臂 ， 还 是 烈焰 红 唇 。 


除 此 之 外 ,我 们 还 将 了 解 到 类 型 对 象 在 C 的 层面 是 如 何 实现 的 ， 并 初步 认识 类 型 对 象 
的 作用 及 它 与 实例 对 象 的 关系 。 总 之 ， 本 章 对 Python 对 象 体系 的 介绍 力求 简洁 ， 但 是 并 
不 肤浅 ， 有 的 地 方 甚至 会 相当 深入 。 因此， 在 本 章 的 阅读 中 ， 如 果 有 什么 疑难 的 地 方 ， 没 
有 关系 ， 先 放下 ， 只 要 有 一 个 直观 的 感觉 就 可 以 了 ， 这 并 不 妨碍 你 阅读 接 下 来 的 内 容 。 


Python 漂 到 出 听 一 一 次 谨 兢 罕 动 故 广告 关心 共 大 
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本 章 的 目的 是 为 能 够 顺利 而 快速 地 进入 对 内 建 对 象 的 剖析 打下 必要 的 基础 ， 至 于 对 
Python 对 象 体系 的 详细 剖析 ， 会 在 第 2 部 分 的 最 后 一 章 中 介绍 到 。 只 有 到 了 那个 时 候 ， 我 
们 才 有 足够 的 能 力 将 这 个 体系 看 个 明白 。 


1.1 Python 内 的 对 象 


从 1989 年 Guido 在 圣诞 节 揭 开 Python 的 大 幕 开 始 ， 一 直到 现在 ，Python 经 历 了 一 次 
一 次 的 升级 ， 但 是 其 实现 语言 一 直 都 是 ANST C。 我 们 知道 ，C 并 不 是 一 个 面向 对 象 的 语 
言 ， 那 么 在 Python 中 ， 它 的 对 象 机 制 是 如 何 实现 的 呢 ? 


对 于 人 的 思维 来 说 ， 对 象 是 一 个 比较 形象 的 概念 ， 而 对 于 计算 机 来 说 ， 对 象 却 是 一 个 
抽象 的 概念 。 它 并 不 能 理解 这 是 一 个 整数 ， 那 是 一 个 字符 串 ， 对 于 计算 机 来 说 ， 它 所 知道 
的 一 切 都 是 字 节 。 通 常 的 说 法 是 ， 对 象 是 数据 以 及 基于 这 些 数 据 的 操作 的 集合 。 在 计算 机 
中 ， 一 个 对 象 实际 上 就 是 一 片 被 分 配 的 内 存 空间 ， 这 些 内 存 可 能 是 连续 的 ， 也 可 能 是 离散 
的 ， 这 都 不 重要 ， 重 要 的 是 这 片 内 存在 更 高 的 层次 上 可 以 作为 一 个 整体 来 考虑 ， 这 个 整体 
就 是 一 个 对 象 。 在 这 片 内 存 中 ， 存 储 着 一 系列 的 数据 以 及 可 以 对 这 些 数 据 进行 修改 或 读 取 
操作 的 一 系列 代码 。 


在 Python 中 ， 对 象 就 是 为 C 中 的 结构 体 在 堆 上 申请 的 一 块 内 存 ， 一 般 来 说 ， 对 象 是 
不 能 被 静态 初始 化 的 ， 并 且 也 不 能 在 栈 空 间 上 生存 。 唯 一 的 例外 就 是 类 型 对 象 ，Python 中 
所 有 的 内 建 的 类 型 对 象 《 如 整数 类 型 对 象 ， 字 符 串 类 型 对 象 ) 都 是 被 静态 初始 化 的 。 


在 Python 中 ， 一 个 对 象 一 旦 被 创建 ， 它 在 内 存 中 的 大 小 就 是 不 变 的 了 。 这 就 意味 着 
那些 再 要 容纳 可 变 长 度数 据 的 对 象 只 能 在 对 象 内 维护 一 个 指向 一 块 可 变 大 小 的 内 存 区 域 
的 指针 。 为 什么 要 设 定 这 样 一 条 特殊 的 规则 呢 ， 因 为 遵循 这 样 的 规则 可 以 使 通过 指针 维护 
对 象 的 工作 变 得 非常 的 简单 。 一 旦 允许 对 象 的 大 小 可 在 运行 期 改变 ， 我 们 就 可 以 考虑 如 下 
的 情形 。 在 内 存 中 有 对 象 A， 并 且 其 后 紧 跟 着 对 象 B。 如 果 运 行 期 某 个 时 刻 ，A 的 大 小 增 
大 了 ， 这 意味 着 必须 将 A 整个 移动 到 内 存 中 的 其 他 位 置 ， 否 则 A 增 大 的 部 分 将 覆盖 原本 
属于 B 的 数据 。 只 要 将 A 移动 到 内 存 中 的 其 他 位 置 ， 那 么 所 有 指向 A 的 指针 就 必须 立即 
得 到 更 新 ， 光 是 想 一 想 ， 就 知道 这 样 的 工作 是 多 么 的 繁琐 。 





PYython 源码 出 前 一 一 深度 并 策动 态 语 膏 蕉 心 横 六 
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1.1.1 对 象 机 制 的 基石 一 一 PyObject 


在 Python 中 ， 所 有 的 东西 都 是 对 象 ， 而 所 有 的 对 象 都 拥有 一 些 相同 的 内 容 ， 这 些 内 
容 在 Pyobject 中 定义 ， PyObject 是 整个 Python 对 象 机 制 的 核心 。 






这 个 结构 体 是 Python 对 象 机 制 的 核心 基石 ， 从 代码 中 可 以 看 到 ，Python 对 象 的 秘密 
都 隐 涛 在 pyobject_HEAD 这 个 宏 中 : 






当 我 们 在 Visual Studio 的 release 模式 下 编译 Python 时 ， 是 不 会 定义 符号 Py_TRACE_ 
REFs 的 。 所 以 在 实际 发 布 的 Python 中 ，Pyobject 的 定义 非常 简单 : 







在 Pyobject 的 定义 中 ， 整 型 变量 ob_retent 与 Python 的 内 存 管理 机 制 有 关 ， 它 实 
现 了 基于 引用 计数 的 垃圾 收集 机 制 。 对 于 某 一 个 对 象 &， 当 有 一 个 新 的 ByGbject * 引 用 
该 对 象 时 ，A 的 引用 计数 应 该 增加 而 当 这 个 pyobject * 被 删除 时 ，a 的 引用 计数 应 该 减 
少 。 当 的 引用 计数 减少 到 0 时 , 一 就 可 以 从 堆 上 被 删除 ， 以 释放 出 内 存 供 别 的 对 象 使 用 。 

在 ob_refcnt 之 外 ， 我 们 注意 到 ob_type 是 一 个 指向 _typeobject 结构 体 的 指针 ， 
那么 这 个 结构 体 是 一 个 什么 东西 呢 ? 实际 上 这 个 结构 体 对 应 着 Python 内 部 的 一 种 特殊 对 
象 ， 它 是 用 来 指定 一 个 对 象 类 型 的 类 型 对 象 。 这 个 类 型 对 象 我 们 将 在 后 边 详细 地 分 析 。 现 


CC 2 
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在 我 们 看 到 了 ， 在 Python 中 ， 对 象 机 制 的 核心 其 实 非常 简单 ， 一 个 是 引用 计数 ， 一 个 就 
是 类 型 信息 。 


在 Pyobject 中 定义 了 每 一 个 Python 对 象 都 必须 有 的 内 容 ， 这 些 内 容 将 出 现在 每 一 个 
Python 对 象 所 占有 的 内 存 的 最 开始 的 字 节 中 。 这 句 话 的 另 一 个 意思 是 ， 每 一 个 Python 对 
象 除了 必须 有 这 个 eyobject 内 容 外 ， 似 乎 还 应 该 占有 一 些 额外 的 内 存 ， 放 置 些 其 他 的 东 
西 。 没 错 ， 倘 车 所 有 的 Python 对 象 都 只 包含 pyobject， 那 Python 中 央 不 是 上 只 有 唯一 的 一 
种 对 象 了 ,这 可 是 大 大 的 不 妙 。 在 pyobject 中 定义 的 内 容 仅仅 是 每 一 个 Python 对 音 都 必 
做 拥有 的 一 部 分 内 容 ， 以 我 们 将 在 下 一 章 误 析 的 整数 对 象 为 例子 ， 你 可 以 看 到 对 象 中 除 
PyObject 之 外 “其 他 的 东西 * 究竟 是 些 什么 东西 。 









Python 的 整数 对 象 中 ， 除 了 Pyobject， 还 有 一 个 额外 的 long 变量 ， 我 们 说 一 个 整数 
当然 应 该 有 一 个 值 ， 这 个 “ 值 ”的 信息 就 保存 在 op_ival 中 。 同 样 ， Python 中 的 字符 趾 
对 象 、list 对 象 、aiet 对 象 、 成 和 上 万 的 其 他 对 象 ， 痢 在 PyObject 之 外 保存 了 属于 自 
己 的 特殊 的 信息 。 


1.1.2 定 长 对 象 和 变 长 对 象 


整数 对 象 的 特殊 信息 是 一 个 C 中 的 整形 变量 ， 无 论 这 个 整数 对 象 的 值 有 多 大， 都 可 以 
保存 在 这 个 整形 变量 (ob_ival) 中。 但 是 很 不 老 ， 对 于 另 一 类 对 象 ， 就 没 这 么 幸运 了 。 如 果 你 
是 Python 的 设计 师 ， 考虑 一 下 应 该 如 何 实现 字符 囊 对 象 。 很 显然 ， 类 似 于 pytntobject， 在 
PyObject 之 外 ， 字符 捉 对 象 应 该 维护 “一 个 字符 串 ” 但 在 C 中 ， 没 有 “一 个 字符 串 ” 这 
样 的 概念 ， 所 以 准确 的 说 法 是 ， 字符 串 对 象 应 该 维护 “in 个 char 型 变量 ”。 这 种 对 象 实际 
上 不 光 是 字符 囊 对 象 ， 比 如 对 应 于 CH+ 中 1ist 或 vector 的 列表 对 象 ， 它 也 应 该 维护 en 
个 pyQbject 对 象 见 看 上 去 这 种 “n 个 ,...,.” 似乎 也 是 一 类 Python 对 象 的 共同 特征 ， 因 

，Python 在 Pyobject 对 象 之 外 ， 还 有 一 个 表示 这 类 对 象 的 结构 体 一 -pyVarobject， 










我 们 把 整数 对 象 这 样 不 包含 可 变 长 度数 据 的 对 象 称 为 “ 定 长 对 象 ”， 而 字符 串 对 象 这 
Python 闫 了 9 强拆 深 伍 区 帝 动 蘑 刘 襄 肯 心 花 尖 
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样 包 含 可 变 长 度数 据 的 对 象 称 为 “ 变 长 对 象 ” 它们 的 区 别 在 于 定 长 对 象 的 不 同 对 象 占 用 
的 内 存 大 小 是 一 样 的 ， 而 变 长 对 象 的 不 同 对 象 占 用 的 内 存 可 能 是 不 一 样 的 。 比如， 整数 对 
象 “1” 和 “100” 占 用 的 内 存 大 小 都 是 sizeof (PyIntobject)， 而 字符 串 对 象 “Python” 
和 “Ruby” 占 用 的 内 存 大 小 就 不 同 了 。 正 是 这 种 区 别 导 致 了 pyvarobject 对 象 中 ob_size 
的 出 现 。 变 长 对 象 通常 都 是 容器 ，cb_size 这 个 成 员 实际 上 就 是 指明 了 变 长 对 象 中 一 共 容 
纳 了 多 少 个 元 素 。 注 意 ，ob_size 指 明 的 是 所 容纳 元 素 的 个 数 ， 而 不 是 字 节 的 数量 。 比 如 
对 于 Python 中 最 常用 的 1ist, 它 就 是 一 个 pyVarobject 对 和 象 ， 如 果 某 一 时 刻 , 这 个 list 
中 有 5 个 元 素 ， 那 么 op_size 的 值 就 起 5。 


从 Pyobject_VaAR_HEAD 的 定义 可 以 看 出 ，PyVarobject 实际 上 只 是 对 pyobject 的 
一 个 扩展 而 已 。 因 此 ， 对 于 任何 一 个 pyvarobject， 其 所 占用 的 内 存 ， 开 始 部 分 的 字 节 的 
意义 和 pyobject 是 一 样 的 。 换血 话说 ,在 Python 内 部 ， 每 一 个 对 象 都 拥有 相同 的 对 象 头 
部 。 这 就 使 得 在 Python 中 ,对 对 和 象 的 引用 变 得 非常 的 统一 , 我 们 只 需要 用 一 个 Pyobject* 
指针 就 可 以 引用 任意 的 一 个 对 象 。 而 不 论 该 对 象 实际 是 一 个 什么 对 象 。 

图 1-1 显示 了 Python 中 不 同 对 象 与 evobject、PyVarobject 在 内 存 布局 上 的 关系 : 

int string 
ET 本 本国 用 





[| pyobieet PyVarObjeet | 其 他 信息 
图 1-1 不 同 Python 对 象 与 PyObject、PyVarObject 的 关系 
1.2 ”类 型 对 象 





在 上 面 的 描述 中 ， 我 们 看 到 了 Python 中 所 有 对 象 共 有 信息 的 定义 。 所 以 ， 当 内 存 中 
存在 某 一 个 Python 对 象 时 ， 该 对 象 开始 的 儿 个 字 节 的 含义 一 定 会 符合 我 们 的 预想 。 但 是 ， 
当 我 们 顺 着 时 间 轴 追 渊 ， 就 会 发 现 一 个 问题 。 当 在 内 存 中 分 配 空间 ， 创 建 对 象 的 时 候 ， 训 
无 疑问 地 ， 必 须要 知道 申请 多 大 的 空间 。 有 显然 ， 这 不 会 是 一 个 定 值 ， 因 为 不 同 的 对 象 ， 需 
要 不 同 的 空间 ， 一 个 整数 对 象 和 一 个 字符 串 对 象 所 需 的 空间 肯定 不 同 。 那 么 ， 对 象 所 需 的 
内 存 空 间 的 大 小 的 信息 到 底 在 哪里 呢 ? 显然 在 eyobject 中 没有 这 样 的 信息 。 其 实 ， 这 样 


fython 源码 列 六 一 一 深 居 浆 匡 动态 语言 巷 心 花 术 
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的 说 法 是 不 对 的 , 这 个 信息 虽然 不 显 见 于 Pyobject 的 定义 中 , 但 它 恰恰 是 隐身 于 PyObject 
之 中 

实际 上 ， 占 用 内 存 空间 的 大 小 是 对 象 的 一 种 元 信息 ， 这 样 的 元 信息 是 与 对 象 所 属 类 型 
密切 相关 的 ， 因 此 它 一 定 会 出 现在 与 对 象 所 对 应 的 类 型 对 象 中 。 现 在 我 们 可 以 来 详细 考察 
一 下 类 型 对 象 _typeobject: 






在 _typeobject 的 定义 中 包含 了 许多 的 信息 ， 主 要 可 以 分 为 4 类 : 
类 型 名 ，tp_name， 主 要 是 Python 内 部 以 及 调试 的 时 候 使 用 ; 
创建 该 类 型 对 象 时 分 配 内 存 空间 大 小 的 信息 ， 即 tp_basicsize 和 tp_itemsize; 
与 该 类 型 对 象 相 关联 的 操作 信息 (就 是 诸如 tp_print 这 样 的 许多 的 函数 指针 ); 
我 们 在 下 面 将 要 描述 的 类 型 的 类 型 信息 。 
事实 上 , 一 个 pyTypeobject 对 象 就 是 Python 中 对 面向 对 象 理 论 中 “类 ”这 个 概念 的 
实现 ， 而 PyTypeobject 也 是 一 个 非常 复杂 的 话题 ， 我 们 将 在 第 2 部 分 专门 以 一 章 的 篇 幅 
详细 溃 析 构建 在 PpyTypeobject 之 上 的 Python 的 类 型 和 对 象 体系 。 这 里 仅仅 是 对 pyType- 
object 做 一 个 粗略 的 介绍 ， 如 果 读 者 有 不 太 明白 的 地 方 ， 可 以 跳 过 ， 这 并 不 影响 第 1 部 
分 的 阅读 。 


VV vv VY YY 


1.2.1 对象 的 创建 


考虑 一 下 这 个 问题 ， 假 如 我 们 命令 Python 创建 一 个 整数 对 象 ，Python 内 部 究竟 如 何 
才能 从 无 到 有 地 创建 出 一 个 整数 对 象 呢 ? 一 般 来 说 ，Python 会 有 两 种 方法 。 第 一 种 是 通过 
Python C API 来 创建 ， 第 二 种 是 通过 类 型 对 象 ByInt_Type。 

Python 对 外 提供 了 C API, 让 用 户 可 以 从 C 环境 中 与 Python 交互 ,实际 上 ,因为 Python 
本 身 也 是 C 写成 的 ， 所 以 Python 内 部 也 大 量 使 用 了 这 些 API。Python 的 CAPI 分 成 两 类 ， 


Python 源 红 训 环 一 演 居 大 和英 动 臣 划 言 村 心 胡 开 
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一 类 称 为 范 型 的 API， 或 者 称 为 AOL (Abstract Object Layer)。 这 类 API 都 具有 诸如 
pyObject_*** 的 形式 ， 可 以 应 用 在 任何 Python 对 象 身 上 ， 比 如 输出 对 象 的 Pyobject_ 
Print ， 你 可 以 pyobject_Brinttint object) ， 也 可 以 sgyobject_print(string 
object)，API 内 部 会 有 一 整套 机 制 确定 最 终 调 用 的 函数 是 哪 一 个 。 对 于 创建 一 个 整数 对 
象 ， 我 们 可 以 采用 如 下 的 表达 式 : PyObiect* intobj = PyObject_New(lPyObject, 
&PyInt_Type)eo 


另 一 类 是 与 类 型 相关 的 API， 或 者 称 为 COL (Concrete Object Layer)。 这 类 API 通常 
只 能 作用 在 某 一 种 类 型 的 对 和 象 上 , 对 于 每 一 种 内 建 对 象 , Python 都 提供 了 这 样 的 一 组 API。 
比如 对 于 整数 对 象 ， 我 们 可 以 利用 如 下 的 API 来 创建 ，PyObject *intobj = PyInt_ 
FromLong (1I0)， 这 样 就 创建 了 一 个 值 为 10 的 整数 对 象 。 


不 论 采用 哪 种 CAPI，Python 内 部 最 终 都 是 直接 分 配 内 存 ， 因 为 Python 对 于 内 建 对 象 
是 无 所 不 知 的 。 但 是 对 于 用 户 自 定义 的 类 型 ， 比 如 通过 class A(lobject)， 定 义 的 一 个 
类 型 &， 如 果 要 创建 a 的 实例 对 象 〈 前 面 我 们 已 经 提 到 ， 实 例 对 象 可 以 视 为 面向 对 象 理 论 
中 的 “对 象 "概念 ) Python 就 不 可 能 事先 提供 pya_New 这 样 的 API。 对 于 这 种 情况 , Python 
会 通过 A 所 对 应 的 类 型 对 象 创建 实例 对 象 。 图 1-2 给 出 了 这 样 的 一 个 例子 : 
ul ns dict 


>>> a = int'(10) 
>>> a 

10 

>>> type(a) 


>>> int. base __ 
<type ‘'object'> 


图 1-2 通过 Pylnt_Type 创建 整数 对 象 
实际 上 , 在 Python 完成 运行 环境 的 初始 化 之 后 , 符号 "int "就 对 应 着 一 个 表示 为 <type 
“int'> 的 对 象 ， 这 个 对 象 其 实 就 是 Python 内 部 的 PyInt_Type。 当 我 们 执行 “int (10)” 
这 样 的 表达 式 时 ， 就 是 通过 pyInt_Type 创建 了 一 个 整数 对 象 。 





图 1-2 还 显示 出 ， 在 Python 2.2 之 后 的 new style class 中 ，int 是 一 个 继承 自 object 
的 类 型 ， 类 似 于 int 对 应 着 Python 内 部 的 PyInt_Type，object 在 Python 内 部 则 对 应 着 
pyBaseObject_Type。 图 1-3 显示 了 读者 可 能 更 熟悉 的 C++ 中 的 定义 int 这 种 类 型 (class) 
的 方式 ， 以 及 在 Python 内 部 ， 这 种 继承 的 关系 是 如 何 实现 的 。 


Python 源码 曾 匠 一 一 北大 床 匡 动态 说 膏 态 心 其 大 
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wm 


了 ph 
class object( }.” 
ah 
class ineY public object 
《 
public: 
ANG) {os} 
we 





图 1-3 从 Pyint_Type 创建 整数 对 象 


标 上 序号 的 虚线 箭头 代表 了 创建 整数 对 象 的 函数 调用 流程 ， 首 先 Pyznt_rype 中 的 
tp_new 会 被 调用 ， 如 果 这 个 tp_new 为 NULL (真正 的 pyInt_Type 中 并 不 为 NULL， 我 们 
这 里 只 是 举例 说 明 tp_new 为 NULL 的 情况 )， 那 么 会 到 tp_base 指定 的 苦 类 中 类 寻找 
tp_new 操作 ，PyBaseobject_Type 的 tp_new 指 向 了 object_new。 在 Python 2.2 之 后 的 
new style class 中 ， 所 有 的 类 都 是 以 object 为 基 类 的 ， 所 以 最 终 会 找到 一 个 不 为 NULL 的 
tp_new。 在 object_new 中 ， 会 访问 pyInt_Type 中 记录 的 tp_basicsize 信息 ， 继 而 完 
成 申请 内 存 的 操作 。 这 个 信息 记录 着 一 个 整数 对 象 应 该 占用 多 大 内 存 ， 在 Python 源码 中 ， 
你 会 看 到 这 个 值 被 设置 成 了 sizeof(PyIntobject)。 在 调用 tp_new 完成 “创建 对 象 "之 
后 ， 流 程 会 转向 pyInt_Type 的 tp_init， 完 成 “初始 化 对 象 ”的 工作 。 对 应 到 C++ 中 ， 
tp_new 可 以 视 为 new 操作 符 ， 而 tp_init 则 可 视 为 类 的 构造 函数 。 

需要 特别 注意 的 是 ， 这 里 只 是 以 整数 对 象 为 例 ， 说 明 类 型 对 象 在 实例 对 象 创建 过 程 中 


的 作用 ， 实 际 上 从 下 一 章 的 分 析 中 将 会 看 到 ， 作 为 Python 内 建 对 象 的 整数 对 象 在 创建 时 
是 有 一 些 不 同 的 。 


1.2.2 对象 的 行为 


在 PyTypeobject 中 定义 了 大 量 的 函数 指针 ， 这 些 函数 指针 最 终 都 会 指向 某 个 函数 ， 
或 者 指向 NULL。 这 些 函 数 指针 可 以 视 为 类 型 对 象 中 所 定义 的 操作 ， 而 这 些 操作 直接 决定 
着 一 个 对 象 在 运行 时 所 表现 出 的 行为 。 


比如 pyTypeobject 中 的 tp_hash 指明 对 于 该 类 型 的 对 象 ， 如 何 生 成 其 hash 值 。 我 
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们 看 到 tp_hash 是 一 个 hashfunc 类 型 的 变量 , 在 objecth 中 ,hashfunc 实际 上 是 一 个 函 
数 指针 ;， sypedef long (*hashfunc) (byobject *)。 在 上 一 节 中 我 们 还 看 到 了 tp_new， 
tp_init 是 如 何 决定 一 个 实例 对 象 被 创建 出 来 并 初始 化 的 。 在 pyTypeobject 中 指定 的 不 
同 的 操作 信息 也 正 是 一 种 对 象 区 别 于 另 一 种 对 象 的 关键 所 在 。 

在 这 些 操作 信息 中 ， 有 三 组 非常 重要 的 操作 族 ， 在 Pytrypeobject 中 ， 它 们 是 tp_ 
as number、 tp_as_sSegquence、 tp, as. mappingse 它们 分 别 指 问 PyNuimberMet hods,、 
PySequenceMethods 和 PyMappingMethods 函数 族 ， 我 们 可 以 看 一 看 PyNumberMethods 
这 个 函数 族 : 


. | r 4 
包 呈 a4 和 oh 

ds EF 7 

pn ee a i ww b [sb he UL 
CAT 





能 被 视 为 数值 对 象 ， 比 如 整数 ， 整 数 对 象 当然 是 一 个 数值 对 象 。 那 么 在 其 对 应 的 类 型 对 象 
pyInt_Type 中 ， tp_as. number .nb_add 就 指定 了 对 该 对 象 进 行 加 法 操作 时 的 具体 行 为 。 
同样 ，pyseauenceMethods 和 pyMappingMethods 中 分 别 定义 了 作为 一 个 序列 对 象 和 关 
联 对 象 ， 应 该 支持 的 行为 ， 这 两 种 对 象 的 典型 例子 是 1ist 和 dict。 

对 于 一 种 类 型 来 说 ， 它 完全 可 以 同时 定义 三 个 函数 族 中 的 所 有 操作 。 换 名 话说 ， 一 个 
对 象 可 以 既 表 现 出 数值 对 象 的 特性 ， 也 可 以 表现 出 关联 对 象 的 特性 。 图 1-4 给 出 了 这 样 一 


个 例子 ， 







»>> lass NTIEC (二 总 ) 
dof gf ie 机 (seif, key}: 
retuvtn key + str(self) 















>>> a = MyInt (1) 
»>> b = MyInt (2) 
yy rint a+h 
3 

>»>> a{ key'] 

‘ke 2 


1-4 数值 对 象 和 关联 对 象 的 混合 体 

看 上 去 al'key'] 这 样 的 操作 是 一 个 类 似 于 ai ct 这 样 的 对 象 才 会 支持 的 操作 。 从 int 
继承 出 来 的 MyInt 应 该 自然 就 是 一 个 数值 对 象 ， 但 是 通过 重 写 _getitem_ 这 个 Python 
中 的 special method， 可 以 视 为 指定 了 MyInt 在 Python 内 部 对 应 的 eyTypeobject 对 象 的 
tp_as_mapping .mp_subscript 操作 。 最 终 的 结果 是 MyInt 的 实例 对 象 可 以 “表现 ”得 
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像 一 个 关联 对 象 一 样 。 归 根 结 底 就 在 于 PyTypeobject 中 允许 一 种 类 型 同时 指定 三 种 不 同 
对 象 的 行为 特性 。 


1.2.3 ”类 型 的 类 型 


仔细 观察 PyTypeobject， 会 有 一 个 有 趣 的 发 现 。 在 pyrypeobject 定义 的 最 开始 ， 
可 以 发 现 Pyobject_waR_HEAD， 这 意味 着 Python 中 的 类 型 实际 上 也 是 一 个 对 象 。 没 错 ， 
在 Python 中 ， 任 何 一 个 东西 都 是 对 象 ， 而 每 一 个 对 和 象 都 是 对 应 一 种 类 型 的 ， 那 么 一 个 有 
趣 的 问题 就 出 现 了 ， 类 型 对 象 的 类 型 是 什么 呢 ? 这 个 问题 听 上 去 很 绕 口 ， 实 际 上 却 非 常 重 
要 ， 对 于 其 他 的 对 象 ， 可 以 通过 与 其 关联 的 类 型 对 象 确定 其 类 型 ， 那 么 通过 什么 来 确定 一 
个 对 象 是 类 型 对 象 呢 ? 答案 就 是 pyType_Type: 











PyType_Type 在 Python 的 类 型 机 制 中 是 一 个 至 关 重 要 的 对 象 ， 所 有 用 户 自 定义 class 
所 对 应 的 pyTypeobject 对 象 都 是 通过 这 个 对 象 创建 的 。 图 1-5 中 显示 了 一 般 的 PyType- 
Object 和 pyrType_Type 的 关系 ; 





<type 
图 1-5 PyType_Type 与 一 般 PyTypeObject 的 关系 

图 1-5 中 那个 一 再 出 现 的 <type “cype' > 就 是 Python 内 部 的 PyType_Type， 它 是 所 
有 class 的 class, 所 以 它 在 Python 中 被 称 为 metaclass。 关于 PyType_Type 和 metaclass，, 
这 里 不 再 深入 阐述 ， 在 后 面 的 章节 中 会 详细 剖析 。 

我 们 接着 来 看 pyInt_zype 是 怎么 和 pyType_Type 建立 关系 的 。 前 面 提 到 , 在 Python 
中 ， 每 一 个 对 象 都 将 自己 的 引用 计数 、 类 型 信息 保存 在 开始 的 部 分 中 。 为 了 方便 对 这 部 分 
内 存 的 初始 化 ，Python 中 提供 了 几 个 有 用 的 宏 ， 
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再 回顾 一 下 Byobject 和 pyvarobject 的 定义 , 初始 化 的 动作 就 一 目 了 然 了 .实际 上 ， 
这 些 赤 在 各 种 内 建 类 型 对 象 的 初始 化 中 被 大 量 地 使 用 着 。 

以 pyInt_Type 为 例 ， 可 以 更 清晰 地 看 到 一 般 的 类 型 对 象 和 这 个 特 立 独行 的 pyType_ 
Type 对 象 之 间 的 关系 : 





PyInt_Type 
图 1-6 ”运行 时 整数 对 象 及 其 类 型 之 间 的 关系 


和 3 Python 对 象 的 多 态 性 


通过 pyobject 和 pyTypeobject，Python 利用 C 语言 完成 了 C++ 所 提供 的 对 象 的 多 
态 的 特性 。 在 Python 创建 一 个 对 象 ， 比 如 Pyintobject 对 象 时 ， 会 分 配 内 存 ， 进 行 初始 
化 。 然 后 Python 内 部 会 用 一 个 Ppyobject* 变 量 , 而 不 是 通过 一 个 pytntobject* 变 量 来 保 
存 和 维护 这 个 对 象 。 其 他 对 象 也 与 此 类 似 ， 所 以 在 Python 内 部 各 个 函数 之 间 传 递 的 都 是 
一 种 范 型 指针 一 一 pyobject*。 这 个 指针 所 指 的 对 象 究 竞 是 什么 类 型 的 ， 我 们 不 知道 ， 只 
能 从 指针 所 指 对 象 的 cb_type 域 动态 进行 判断 ， 而 正 是 通过 这 个 域 ，Python 实现 了 多 态 
机 制 。 


Python 源码 前 折 一 一 深度 费 动态 语言 散 心 开 不 
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考虑 下 面 的 print 函数 ， 






如 果 传 给 print 的 指针 是 一 个 pyIntObject*, 那么 它 就 会 调用 PyIntObject 对 象 对 
应 的 类 型 对 象 中 定义 的 输出 操作 ， 如 果 指 针 是 一 个 PYStringobjectsy 那么 就 会 调用 
PyStringobject 对 象 对 应 的 类 针对 象 中 定义 的 输出 操作 。 可 以 看 到 ， 这 里 同一 个 函数 在 
不 同情 况 下 表现 出 了 不 同 的 行为 ， 这 正 是 多 态 的 核心 所 在 。 

前 面 已 经 提 到 的 AOL 的 C API 正 是 建立 在 这 中 “多 态 ” 机 制 之 上 的 。 下 面 给 出 了 一 
个 简单 的 例子 ; 


A = 
了 ODTEeC 





1.4 引用 计数 
“2 
在 C 或 C++ 中 , 程序 员 被 赋予 了 极 大 的 自由 , 可 以 任意 地 申请 内 存 。 但 是 权利 的 另 一 
而 则 对 应 着 责任 ， 程 序 员 必 须 负 责 将 申请 的 内 存 肥 放 ， 并 有 释 放 无 效 指针 。 可 以 说 ， 这 一 点 
下 是 万 恶 之 源 ， 大 量 内 存 漆器 和 拔 空 指针 的 bug 由 此 而 生 ， 如 黄河 泛滥 一 发 不 可 收拾 。 
现代 的 开发 语言 中 一 般 都 选择 由 语言 本 身 负责 内 存 的 管理 和 维护 ， 即 采用 了 垃圾 收集 
机 制 ， 比 如 Java 和 C#。 拉 圾 收集 机 制 使 开发 人 员 从 维护 内 存 分 配 和 清理 的 繁重 工作 中 解 
放出 来 ,但 同时 也 剥夺 了 程序 员 与 内 存 亲密 接触 的 机 会 ， 并 付出 了 一 定 的 运行 效率 作为 代 
价 。 现 在 看 来 ， 随 着 垃圾 收集 机 制 的 完善 ， 对 时 间 要 求 不 是 非常 高 的 程序 完全 可 以 通过 使 
用 垃圾 收集 机 制 的 语言 来 完成 ， 这 部 分 程序 上 右 了 现存 的 大 多 数 的 程序 。 这 样 做 的 好 处 是 提 
高 了 开发 效率 ， 并 降低 了 bug 发 生 的 几率 。Python 同样 也 内 建 了 垃圾 收集 机 制 ， 代 替 程序 
员 进行 繁重 的 内 存 管理 工作 ， 而 引用 计数 正 是 Python 垃圾 收集 机 制 的 一 部 分 。 
Python 通过 对 一 个 对 象 的 引用 计数 的 管理 来 维护 对 象 在 内 存 中 的 存在 与 否 。 我 们 知道 
在 Python 中 每 一 个 东西 都 是 一 个 对 象 ， 都 有 一 个 ob_refcnt 变量 。 这 个 变量 维护 着 该 对 
象 的 引用 计数 ， 从 而 也 最 终 决 定 着 该 对 象 的 创建 与 消亡 。 


在 Python 中 ， 主 要 是 通过 py_INCREF (op) 和 py_DECREF (op) 两 个 宏 来 增加 和 减少 一 
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个 对 象 的 引用 计数 。 当 一 个 对 象 的 引用 计数 减少 到 0 之 后 ，py_pgcREF 将 调用 该 对 象 的 析 
构 函 数 来 释放 该 对 象 所 占有 的 内 存 和 系统 资源 。 注 意 这 里 的 “ 析 构 函数 ”借用 了 C++ 的 词 
汇 ， 实 际 上 这 个 析 构 动作 是 通过 在 对 象 对 应 的 类 型 对 象 中 定义 的 一 个 函数 指针 来 指定 的 ， 
就 是 那个 tp_ Geallocs 

如 果 和 熟悉 设计 模式 中 的 Observer 模式 ， 就 可 以 看 到 ， 这 里 隐隐 约 约 透 着 Observer 模 
式 的 影子 。 在 ob_refcnt 减 为 0 之 后 ， 将 触发 对 象 销毁 的 事件 。 从 Python 的 对 象 体系 来 
看 ， 各 个 对 象 提供 了 不 同 的 事件 处 理 函 数 ， 而 事件 的 注册 动作 正 是 在 各 个 对 象 对 应 的 类 型 
对 银 中 静态 完成 的 。 


PyObject 中 的 ob_ refcont 是 一 个 32 位 的 整形 变量 ， 这 实际 蕴含 着 Python 所 做 的 一 
个 假设 ， 即 对 一 个 对 象 的 引用 不 会 超过 一 个 恪 形 变量 的 最 大 值 。 一 般 情况 下 ， 如 果 不 是 恶 
意 代 码 ， 这 个 假设 显然 是 成 立 的 。 

需要 注意 的 是 ， 在 Python 的 各 种 对 象 中 ， 类 型 对 象 是 超越 引用 计数 规则 的 。 类 型 对 
象 “ 跳 出 三 界外 ， 不 再 五 行 中 ”永远 不 会 被 析 构 。 每 一 个 对 象 中 指向 类 型 对 象 的 指针 不 
被 视 为 对 类 型 对 象 的 引用 。 

在 每 一 个 对 象 创建 的 时 候 ，Python 提供 了 一 个 _py_NewReterencefop) 宏 来 将 对 象 的 
引用 计数 初始 化 为 1 。 

在 Python 的 源 代码 中 可 以 看 到 ， 在 不 同 的 编译 选项 下 (Py_REF_DEBUG,， Py_TRACE_ 
REFS)， 引 用 计数 的 宕 还 要 做 许多 额外 的 工作 。 下 面 展示 的 代码 是 Python 在 最 终 发 行 时 这 
些 宏 所 对 应 的 实际 的 代码 : 






有 


象 对 应 的 析 构 函数 就 会 被 调用 ， 但 是 要 特别 
注意 的 是 ， 调 用 析 构 函数 并 不 意味 着 最 终 一 定 会 调用 tree 释放 内 存 空间 ， 如 果真 是 这 样 
的 话 ， 那 频繁 地 申请 、 释 放 内 存 空间 会 使 Python 的 执行 效率 大 打折 扣 ( 更 何况 Python 已 
经 多 年 背负 了 人 们 对 其 执行 效率 的 不 满 )。 一 般 来 说 ，Python 中 大 量 采用 了 内 存 对 象 池 的 
技术 ， 使 用 这 种 技术 可 以 避免 频繁 地 申请 和 释放 内 存 空 间 。 因 此 在 析 构 时 ， 通 常 都 是 将 对 
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象 占用 的 空间 归还 到 内 存 池 中 。 这 一 点 在 接 下 来 对 Python 内 建 对 象 的 实现 中 可 以 看 得 一 
清二 楚 。 


1.5 Python 对 象 的 分 类 


我 们 将 Python 的 对 象 从 概念 上 大 致 分 为 5 类 ， 需 要 指出 的 是 ， 这 种 分 类 并 不 一 定 完 
全 正确 ， 不 过 是 提供 一 种 看 待 Python 中 对 象 的 视角 而 已 。 


。 ”Fundamental 对 象 ; 类 型 对 象 
。 Numeric 对 象 ， 数值 对 象 
e Sequence 对象， 容纳 其 他 对 象 的 序列 集合 对 象 
。 Mapping 对 象 : 类 似 于 C++ 中 map 的 关联 对 象 
e。 JInternal 对 象 ， Python 虚拟 机 在 运行 时 内 部 使 用 的 对 象 
图 1-7 列 出 了 我 们 的 对 象 分 类 体系 ， 并 给 出 了 每 一 个 类 别 中 的 一 些 实例 : 






j fundamental 对 象 | 一 


Internal 对 象 下 







Numeric 对 象 后 foat 
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图 1-7 ”Python 中 对 象 的 分 类 


现在 ， 我 们 已 经 有 了 一 些 关 于 Python 对 象 体系 的 基本 认识 了 ， 目 前 所 掌握 的 这 些 认 
识 已 经 足够 我 们 支撑 到 细致 剖析 Python 对 象 体系 的 那 一 天 了 。 从 现在 开始 ， 我 们 将 正式 
进入 本 书 的 第 一 部 分 ， 剂 析 Python 的 内 建 对 象 。 


Python 源 梧 击 业 一 一 深 受 区 黄 动 臣 迹 言 月 心 共 玉 


ea 


Wohi 





CHAPTER 










Se 


nt al dn 


Z| 


在 Python 的 所 有 对 象 中 ， 整 数 对 象 是 报 简单 的 对 象 。 从 对 Python 对 象 机 制 的 剖析 来 
说 ， 整 数 对 象 也 最 容易 使 读者 真实 地 感受 Python 对 象 机 制 的 切入 点 ， 因 此 我 们 对 Python 
内 建 对 象 的 剖析 就 从 这 个 最 简单 的 整数 对 象 开 始 。 


初 识 PyIntObject 对 象 


Python 中 对 “整数 ”这 个 概念 的 实现 是 通过 pyIntobject 对 象 来 完成 的 。 在 上 一 童 
初探 Python 对 象 体系 时 ， 我 们 看 到 了 “ 定 长 对 象 ” 和“ 变 长 对 象 ”的 区 别 ， 这 是 一 种 对 
对 象 的 二 分 法 ， 实 际 上 还 存在 着 另 一 种 对 对 象 的 二 分 法 ， 这 种 分 类 法 根据 对 象 维护 数据 的 
可 变性 将 对 象 分 为 “可 变 对 象 ” (mutable) 和 “不 可 变 对 象 ”(immutabie)。 这 章 将 要 前 
析 的 pyIntobject 对 象 就 是 一 个 不 可 变 对 象 ， 这 种 不 变性 是 针对 pytntobject 对 象 中 所 
维护 的 那个 真实 的 浆 数 值 而 言 的 〈 在 环节 的 描述 中 ， 我 们 将 不 刻意 区 分 “pyzntobjeet 对 
象 的 值 ”和 “PyIntobject 对 象 中 维护 的 真实 整数 值 ” 两 种 说 法 ， 而 将 其 视 为 一 致 ， 都 表 
示 对 象 所 维护 的 真实 整数 值 )。 也 就 是 说 ， 在 创建 了 一 个 pyintobject 对 和 象 之 后 ， 就 再 也 
不 能 改变 该 对 象 的 值 了 。 在 后 续 的 章节 中 我 们 可 以 看 到 , 这 种 不 变性 并 非 是 ByIntobject 
对 象 所 特有 的 性 质 ， 在 Python 中 ， 除 ByIntobject 之 外 ， 还 有 很 多 对 象 也 是 不 变 对 象 ， 
比如 字符 串 对 象 等 。 

将 数 对 象 是 如 此 简单 ， 枯 于 我 们 之 前 对 Python 对 象 机 制 的 一 般 性 剂 析 ， 闭 上 眼睛 想 
象 一 下 ,似乎 我 们 轻而易举 就 能 搞定 一 个 整数 对 象 ， 对 于 它 ， 似 乎 并 不 需要 花费 太 多 的 笔 
黑 。 诚 然 ， 如 果 单 纯 地 考虑 一 个 静态 的 Pyzntobject 的 实现 ， 没 有 什么 赤 困 难 的 ， 然 而 
当 我 们 把 目光 投 到 运行 时 的 整数 对 象 身上 ， 就 会 发 现 有 许多 值得 深思 的 地 方 。 
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在 Python 的 应 用 程序 中 ， 整 数 的 使 用 是 如 此 地 广泛 ， 其 创 生 和 滩 灭 又 是 如 此 频繁 ， 
考虑 到 Python 所 采用 的 引用 计数 机 制 ， 这 是 否 意味 着 系统 堆 将 面临 着 透 过 尾数 对 象 而 涌 
来 的 狂风 又 雨 般 的 访问 ?这样 的 执行 效率 你 可 以 接受 吗 ? 一 旦 引入 运行 时 ， 我 们 就 会 看 
到 ， 如 何 设计 一 个 高 效 的 机 制 ， 使 得 整数 对 得 的 使 用 不 会 成 为 Python 的 瓶颈 ， 就 成 了 一 
个 必须 面 对 的 至 关 重 要 的 设计 决策 ， 而 解决 方案 也 并 非 可 以 信 手 牛 来 。 

整数 对 象 池 ， 这 是 Python 给 出 的 解答 ， 我 们 将 在 本 章 中 看 到 一 个 优雅 而 巧妙 的 整数 
对 象 的 缓冲 池 机 制 。 在 此 基础 上 ， 运 行 时 的 整数 对 象 并 非 一 个 个 独立 的 对 象 ， 而 是 如 同 自 
然 界 的 蚂蚁 一 般 ， 已 经 是 通过 一 定 的 结构 联结 在 一 起 的 庞大 的 整数 对 象 系 统 了 。 而 这 种 面 
向 特定 对 象 的 缓冲 池 机 制 也 是 Python 语言 实现 时 的 核心 设计 策略 之 一 ， 在 后 续 的 削 析 中 ， 
我 们 会 看 到 ， 几 乎 所 有 的 内 建 对 象 ， 都 会 有 自己 所 特有 的 对 象 池 机 制 。 

好 ， 言 归 正 传 ， 在 深入 整数 对 象 的 运行 时 行为 之 前 ,我 们 再 来 回顾 一 下 静态 的 整数 对 
象 的 定义 一 一 InEobjects 





Pe 






Python 中 的 整数 对 象 pyIntobject 实际 上 就 是 对 C 中 原生 类 型 1ong 的 一 个 简单 包 
装 。 从 对 Python 对 象 机 制 的 一 般 性 描述 中 ， 我 们 知道 ， 对 于 Python 中 的 对 象 ， 与 对 象 相 
关 的 元 信息 实际 上 都 是 保存 罕 与 对 象 对 应 的 类 型 对 象 中 的 , 对 于 PyIntobject, 这 个 类 型 
对 象 是 PyITTL_Type: 
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这 里 完整 地 列 出 了 PyIntobject 对 象 的 元 信息 ， 这 是 我 们 第 一 次 ， 也 是 最 后 一 次 花 
并 如 此 的 篇 幅 来 展示 一 个 对 象 的 元 信息 ， 在 以 后 的 章节 中 ， 我 们 将 只 会 给 出 与 某 个 主题 相 
关 的 元 信息 。 

在 pyrnt_rType 中 保存 了 关于 pyintosject 对 意 的 丰富 元 信息 , 臣 中 有 hyInkobject 
对 象 应 该 占用 的 内 存 大 小 ，Eyintobject 对 象 的 文档 信息 ， 而 更 多 的 是 PyIntObject 对 
象 所 支持 的 操作 。 在 表 2-1 中 ， 列 出 了 一 些 pyIntobject 所 支持 的 操作 : 





表 2-1 
int_dealloc = 
int_repr 
int_hash 
int_print 
i 比较 操作 
int_as_number 数值 后 作 集合 -一 二. 
int_methods 成 员 圾 训 集 合 
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显然 ，Pytntobject 对 象 的 比较 操作 实际 上 就 是 简单 地 将 它 所 维护 的 1ong 值 进行 比 
较 。 在 pyInt_Type 这 个 元 信息 集合 中 ， 需要 特别 注意 的 是 int_as_number 这 个 域 : 





上 一 章 已 经 提 到 ， 这 个 pyNunbermethods 中 定义 了 一 个 对 象 作为 数值 对 象 时 的 所 有 
可 选 的 操作 信息 。 在 Python 2.5 中 ，PyNumberMethods 中 一 共有 39 个 函数 指针 
定义 了 39 种 可 选 的 操作 ， 这 39 种 操作 包括 加 法 、 减 法 、 乘 法 、 模 运算 等 。 

在 int_as_number 中 ， 确 定 了 对 于 一 个 整数 对 象 ， 这 些 数 值 操作 应 该 如 何 进行 。 当 
然 ， 在 PyNumberMethods 的 39 种 数值 操作 中 ， 并 非 所 有 的 操作 都 要 求 一 定 要 被 实现 。 比 
如 在 int_as_number 中 ， 就 可 以 看 到 ， 有 相当 多 的 操作 是 没有 实现 的 。 作 为 一 个 数值 操 
作 的 例子 ， 我 们 可 以 看 一 下 FyIntobject 中 加 法 操作 是 如 何 实 现 的 〈 见 代码 清单 2-1)。 


代码 清单 2-1 
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如 你 所 想 , pyIntobject 对 象 所 实现 的 加 法 操作 是 直接 在 其 维护 的 1ong 值 上 进行 的 ， 
可 以 看 到 ， 在 完成 了 加 法 操作 后 ， 代 码 清单 2-1 的 [了 ] 处 还 进行 了 溢出 的 检查 。 如 果 没 有 洲 
出 , 就 返回 一 个 新 的 pyIntobject, 这 个 pyIntobject 所 拥有 的 值 正好 是 加 法 操作 的 结果 。 


在 Python 的 实现 中 ， 对 某 些 会 频繁 执行 的 代码 ， 都 会 同时 提供 函数 和 宏 两 种 版 本 ， 
比如 在 上 面 列 出 的 代码 中 的 PyInt_AS_LONG， 与 之 对 应 的 还 有 一 个 函数 Pyint ASsSLOngs 
宏 版 本 的 pyInt_As_LONG 可 以 省 去 一 次 函数 调用 的 开销 ， 但 是 其 牺牲 了 类 型 安全 ， 因 为 
其 参数 op 完全 可 以 不 是 一 个 pyIntobject 对 象 ， 比 如 程序 员 在 使 用 C 编写 Python 的 扩 
展 模块 时 ， 可 能 由 于 疏忽 导致 这 样 的 错误 。 而 查看 intobject.c 中 的 函数 版 ByTnE_AsLong， 
则 会 多 方 检查 类 型 安全 性 ， 当 然 ， 这 就 以 执行 效率 作为 代价 了 。 


从 ByIintobject 对 象 的 加 法 操作 的 实现 可 以 请 晰 地 看 到 ， PyIntObject 确实 是 一 个 
immutapble 的 对 象 ， 因为 在 操作 完成 之 后 ， 原来 参与 拘 作 的 任何 一 个 对 象 都 没有 发 生 改 变 ， 
取而代之 的 是 一 个 全 新 的 pyIntobject 对 象 于 虚无 中 诞生 。 


如 果 加 法 的 结果 有 溢出 ， 那 么 结果 就 再 不 是 一 个 Bytintobject 对 象 ， 而 是 一 个 
PyLongOobject 对 得 了 。 2-1 对 PyIntObJect 对 象 忌 执行 + 的 操作 时 ， 就 会 引起 加 法 
结果 溢出 ， 从 而 返回 一 个 PyLongOobject 对 象 : 


> 如 三 UX 
7>> type (a) 
<type "int'> 
»>> TYPa (arta) 
<type "lony!’> 


图 2-1 加 法 溢出 的 例子 


另 一 个 有 趣 的 元 信息 是 pytntobject 对 象 的 文档 信息 ， 这 个 元 信息 维护 在 int_doc 
域 中 。 文 档 无 颖 地 集成 在 语言 的 实现 中 ， 这 一 点 ， 是 Python 相对 于 其 他 语言 的 一 大 特点 。 
我 们 可 以 在 Python 的 交互 环境 下 通过 pyIntObject 对 象 的 _doc_ 属性 看 到 int_doc 维 
护 的 文档 ， 如 图 2-2 所 示 : 


>>> & 三 1 
>>> print a. doc- 
int{(xt{, base]) 一 艺 integer 















Convert a string or niumbher to an inteyer, if possible 
actument will be truncatad towards zero (this does no 
representation of a floating point number!l) When con 
the optional hase. It is an error to supply & hase 

non-string. If the argument i3 outside 七 me integer ra 
will be raturned instead, 


图 2-2 alt 
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2.2 ”PyIntObject 对 象 的 创建 和 维护 


2.2.1 对象 创建 的 3 种 途径 


在 上 一 章 我 们 已 经 提 到 ，Python 中 创建 一 个 实例 对 象 可 以 通过 Python 暴露 的 C API， 
也 可 以 通过 类 型 对 象 完成 创建 动作 。 在 Python 自身 的 实现 中 ， 几 乎 都 是 调用 C API 来 创 
建 内 建 实例 对 象 的 。 而 且 ， 对 于 内 建 对 象 , 即便 是 通过 内 建 类 型 对 象 中 的 tp_news tp_init 
操作 创建 实例 对 象 ， 实 际 上 最 终 还 是 会 调用 Python 为 特定 内 建 对 象 准备 的 CAPI。 所 以 在 
本 书 第 一 部 分 对 内 建 实例 对 象 的 创建 之 分 析 中 ， 我 们 将 把 分 析 的 重点 都 放 在 Python 为 这 
种 内 建 实例 对 象 暴露 出 来 的 CAPI 上 。 无 论 通 过 哪 种 方式 创建 内 建 实例 对 象 ， 我 们 分 析 所 
得 出 的 结论 都 是 正确 的 。 





分 别 是 从 long 值 ， 从 字符 趾 以 及 py_txticopE 对 象 生成 PyIntobject 对 象 。 在 这 里 
我 们 只 考察 从 long 值 生成 pyrntobject 对 象 。 因 为 PyInt_Fromstring 和 pyrnt_ 
FromUnicode 实际 上 都 是 先 将 字符 串 或 Py_UNICODE 对 象 转换 成 浮 点 数 ， 然后 再 调用 
BYTnt_PromFloat。 如 此 看 来 ，PyInt_Fromstting 和 PEyInt_Fromgnicade 不 过 利用 了 
设计 模式 中 Adaptor Pattern 的 思想 对 属 数 对 象 的 核心 创建 函数 peyvrnt_gromgloat 进行 了 
接口 转换 机 了 ， 
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为 了 深刻 地 理解 pyIntobject 对 象 的 创建 过 程 ， 首 先 必 须要 深入 了 解 Python 中 整数 
对 象 在 内 存 中 的 组 织 方式 。 前 面 我 们 已 经 提 到 ， 在 运行 期 间 ， 一 个 个 的 整数 对 象 在 内 存 中 
并 不 是 独立 存在 ， 单 兵 作战 的 ， 而 是 形成 了 一 个 整数 对 象 系统 。 我 们 首先 就 重点 考察 一 下 
Python 中 整数 对 象 系统 的 结构 。 


2.2.2 ”小 整数 对 象 


在 实际 的 编程 中 ， 数 值 比较 小 的 整数 ， 比 如 1、2、29 等 ， 可 能 在 程序 中 会 非常 频繁 
地 使 用 。 想 一 想 C 语言 中 的 for 循环 , 就 可 以 了 解 为 什么 这 些小 整数 会 有 那么 频繁 的 使 用 
场合 。 在 Python 中 ， 所 有 的 对 象 都 存活 在 系统 堆 上 。 这 就 是 说 ， 如 果 没 有 特殊 的 机 制 ， 
对 于 这 些 闫 繁 使 用 的 小 整数 对 象 ，Python 将 一 次 又 一 次 地 使 用 malioc 在 堆 上 申请 空间 ， 
并 且 不 厌 其 烦 地 一 次 次 srees。 这 样 的 操作 不 仅 大 大 降低 了 运行 效率 ， 而 且 会 在 系统 堆 上 
造成 大 量 的 内 存 碎 片 ， 严 重 影响 Python 的 整体 性 能 。 

显然 ，Guido 是 决 不 能 容许 这 样 的 方案 存在 的 ， 于 是 在 Python 中 ， 对 小 整数 对 象 使 用 
了 对 象 池 技 术 。 刚 才 我 们 说 了 ，Pytntobject 对 象 是 不 可 变 对 象 ， 这 个 信息 预示 着 一 个 天 
大 的 喜讯 ， 即 对 象 池 里 的 每 一 个 Pytntobject 对 象 都 能 够 被 任意 地 共享 。 

给 你 一 个 整数 100， 它 是 一 个 “小 ”整数 吗 ? 那么 101 呢 ? 小 整数 和 大 整数 的 分 界 点 
在 哪里 ? Python 的 回答 是 :你 的 地 盘 你 做 主 ， 你 想 这 个 分 界 点 在 哪里 它 就 在 哪里 。 

现在 , 我们 有 一 个 好 消息 和 一 个 坏 消息 。 好 消息 是 ，Python 确实 提供 了 一 种 方法 ， 通 
过 这 种 方法 ， 用 户 可 以 调整 小 整数 与 大 整数 的 分 界 点 ， 从 而 动态 确定 小 阁 数 对 象 池 中 到 底 
应 该 有 多 少 个 小 整数 对 象 。 呢 ， 但 是 ， 老 实说 ， 坏 消息 可 能 会 打击 你 的 积极 性 ，Python 提 
供 的 这 种 方法 非常 原始 ， 为 了 达到 动态 调整 的 目的 ， 你 只 有 自己 修改 源 代码 ， 然 后 重新 纺 
译 出 新 的 Python 来 。 
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“大 隐隐 于 市 ， 小 隐隐 于 野 ” 在 intobject.c 超过 1000 行 的 代码 中 ， 这 个 毫 不 起 眼 的 
small_ints 就 是 举足轻重 的 小 整数 对 象 的 对 象 池 ， 准 确 地 说 , 应 该 是 一 个 pyInitobject* 
池 ， 不 过 没有 关系 ， 我 们 就 打算 以 小 整数 对 象 池 来 称呼 它 。 在 Python 2.5 中 ， 将 小 整数 集 
合 的 范围 默认 设 定 为 -5，257)。 但 是 你 完全 可 以 修改 NSMALEEOSINTS 和 NSMALLNEGINTS， 
重新 编译 Python， 从 而 将 这 个 范围 向 两 端 伸展 或 收缩 。 

对 于 小 整数 对 象 ，Python 直接 将 这 些 粘 数 对 应 的 pyIntobject 缓存 在 内 存 中 ， 并 将 
其 指针 存放 在 small_ints 中 。 那 么 对 于 大 整数 呢 ? 很 显然 ， 整 数 对 象 是 编程 中 使 用 得 非 
常 多 的 东西 ， 谁 敢 拍 胸 膊 保证 只 有 小 整数 才 会 被 频繁 地 使 用 呢 。 如 果 将 所 有 的 整数 对 应 的 
PyIntobject 对 象 都 缓存 在 内 存 池 中 ， 自 然 是 再 理想 不 过 了 ,但 是 这 样 对 内 存 的 使 用 是 会 
被 视 为 败家 子 的 ， 难 免 遭 人 吕 视 。 开 放 源 码 是 放 在 公共 空间 供 无 数 人 检阅 批判 的 ， 铠 怕 即 
便 胆 大 如 牛 者 ， 也 不 敢 在 内 存 使 用 上 出 此 下 策 吧 。 时 间 与 空间 的 两 难 选 择 ， 这 个 计算 机 领 
域 最 基本 的 矛盾 就 在 这 里 浮 出 水 面 了 。 


2.2.3 大 整数 对 象 


Python 的 设计 者 们 所 做 出 的 妥协 是 ， 对 于 小 整数 ， 在 小 整数 对 象 池 中 完全 地 缓存 其 
PyIntobject 对 象 。 而 对 其 他 整数 ，Python 运行 环境 将 提供 一 块 内 存 空间 ， 这 些 内 存 空间 
由 这 些 大 整数 轮流 使 用 ， 也 就 是 说 ， 谁 需要 的 时 候 谁 就 使 用 。 这 样 免 去 了 不 斯 地 malloc 
之 苗 ， 又 在 一 定 程度 上 考虑 了 效率 问题 。 下 面 将 详细 剖析 其 实现 机 制 。 

在 Python 中 ， 有 一 个 PyIntBloek 结构 ， 在 这 个 结构 的 基础 上 ， 实 现 了 的 一 个 单 向 列 
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5 1. 


tBlock， 顾名思义 ,就 是 说 这 个 结构 里 维护 了 一 块 内 存 (block)， 其 中 保存 了 一 些 
pyintobject 对 象 。 从 PyIntBlock 的 定义 中 可 以 看 到 ,在 一 个 PyIntBlock 中 维护 着 N_INTO- 
sdJEcms 个 对 象 ， 做 一 个 简单 的 计算 ， 就 可 以 知道 是 82 个 。 显 然 ， 这 个 地 方 也 是 Python 的 
设计 者 留 给 你 的 可 以 动态 调整 的 地 方 ， 不 过 ， 你 需要 再 一 次 地 修改 源 代码 并 重新 编译 。 

PyIntBlock 的 单 向 列表 通过 block_list 维护 ,每 一 个 block 中 都 维护 了 一 个 PyTntobject 
数组 一 一 objects， 这 就 是 真正 用 于 存储 被 缓存 的 pytntobject 对 象 的 内 存 。 可 以 想象， 
在 Python 运行 的 某 个 时 刻 , 某 个 block 的 opjects 中 ， 有 一 些 内 存 已 经 被 使 用 了 ， 而 另 一 
些 内 存 则 处 于 空闲 状态 。 这 些 空闲 状态 的 内 存 必 须 组 织 起 来 ， 这 样 ，Python 在 需要 新 的 内 
存 来 存储 新 的 pyIntobject 对 象 时 ， 才 能 快速 获得 所 需 的 内 存 。Python 使 用 一 个 单 向 链 
表 来 管理 全 部 block 的 objects 中 所 有 的 空闲 内 存 ， 这 个 自由 内 存 链表 的 表 头 就 是 Free_ 
1ist。 当 然 ， 最 开始 的 时 候 ， 这 两 个 指针 都 被 设置 为 空 指针 ， 如 图 2-3 所 示 。 








注 ， 在 此 后 的 图 示 中 ， 我 们 将 统一 用 实 线 凌 尾 箭头 表示 block_list， 唐 线 鞭 尾 箭头 


表示 free_list。 


2.2.4 添加 和 删除 


好 了 ， 现 在 大 体 上 可 以 想象 Python 中 整数 对 象 系统 在 内 存 中 是 一 种 怎样 的 结构 了 。 
下 面 我 们 将 通过 对 pyInt_Frombong 进行 细致 入 微 的 考察 ,真实 地 展现 一 个 个 pyIntobject 
对 象 是 如 何 从 无 到 有 地 产生 ， 并 融入 到 Python 的 整数 对 象 系统 中 的 〔 见 代码 清单 2-2)。 


代码 清单 2-2 
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pyintobject 对 象 的 创建 道 过 两 步 完 成 ， 
> ”如 果 小 整数 对 象 池 机 制 被 激活 ， 则 尝试 使 用 小 整数 对 象 池 ， 
> ”如 果 不 能 使 用 小 整数 对 象 池 ， 则 使 用 通用 的 整数 对 象 池 ， 


2.2.4.1 使 用 小 整数 对 象 池 


如 果 NSMALLNEGINTS + NSMALLPOSINTS > 0 成立, 闭 么 Python 认为 小 整数 对 象 
池 机 制 被 激活 了 ，Pyrnt_pPromilong 会 首先 在 代码 清单 2.2 的 [1] 处 检查 传 入 的 long 值 是 否 
属于 小 整数 的 范围 ， 如 果 确 实 属于 小 整数 ， ”和 只 需要 返回 在 小 整数 对 象 
池 中 的 对 应 的 对 和 就 可 以 了 。 


如 果 小 整数 对 象 池 机 人 制 没有 被 激活 ， 或 者 传 入 的 long 值 不 是 属于 小 整数 ，Python 就 
会 转向 由 block_list 维护 的 通用 整数 对 象 池 。 正如 前 面 我 们 所 描述 的 ，Python 需要 在 某 
块 block 的 objects 中 ， 寻 找 一 块 可 用 于 存储 新 的 PyIntObject 对 象 的 内 存 ， 于 是 ， 重 
任 就 落 在 了 free _1ist 身上 。 


2.2.4.2 ”创建 通用 整数 对 象 池 


显然 ， 当 首次 调用 pyInt_Frombong 时 ，free_1ist 必定 为 NULE,， 这 时 Python 会 在 
代码 清单 2-2 的 [2] 处 调用 fill_free_list, 创建 新 的 block， 从 而 也 就 创建 了 新 的 空闲 内 
存 。 需要 注意 的 是 ，Python 对 fi11_free_list 的 调用 不 光 会 发 生 在 对 pyInt_FromLong 
的 首次 调用 时 ， 在 Python 运行 期 间 ， 只 要 所 有 block 的 空闲 内 存 被 都 使 用 完了 ， 就 会 导致 
free_list 变 为 NULL; 从 而 在 下 一 次 pyInt_FromLong 的 调用 时 激发 对 fi11_Free_1ist 
的 调用 。 
代码 清单 2-3 
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在 fill_free_list 中 ;会 首先 在 代码 清单 2-3 


| 


的 [处 申请 一 个 新 的 PylntBlock 结构 ， 





N_INTOBJECTS 个 PyintObjett 


TT 
图 2-4 PylIntBlock 的 内 存 布局 

注 : 图 中 的 虚线 并 不 表示 指针 关系 ， 虚 线 表 示 objects 的 更 详细 的 表示 方式 ， 下 同 。 

这 时 block 中 的 objects 还 仅仅 是 一 个 pytntobject 对 象 的 数组 ， 接 下 来 ，Python 
将 objects 中 的 所 有 EyIntobjiect 对 象 通过 指针 依次 连接 起 来 ， 从 而 将 数组 转变 成 一 个 单 
向 链表 ， 这 就 是 代码 清单 2-3 的 [人 处 的 行为 。Python 从 o5jects 数组 的 最 后 一 个 元 素 开 
始 链接 的 过 程 , 在 整个 链接 过 程 中 ，Python 使 用 了 pyobject 中 的 cb_type 指针 作为 连接 
指针 。 可 以 看 到 ，Python 的 设计 者 为 了 解决 问题 ， 在 某 个 局 部 点 ， 放 弃 了 对 类 型 安全 的 坚 
持 ， 如 同 政治 一 样 ， 程 序 的 开发 也 是 一 门 妥协 的 艺术 @。 

图 2-5 展示 了 代码 清单 2-3 的 [23] 处 的 链表 转换 动作 完成 之 后 的 block， 其 中 用 虚线 箭 
头 展示 了 [中 开始 时 Dn 和 可 的 初始 状态 。 可 以 看 到 ， 当 链 表 转 换 完成 之 后 ， free Jist 也 
在 它 该 出 现 的 位 置 了 。 从 free_list 开始 ， 沿 着 ob_type 指针 ， 就 可 以 遍历 刚刚 创建 的 
PyIntBlock 中 的 所 有 空闲 的 为 PYfntObject 准备 的 内 存 了 。 





2-5 ”完成 链表 转换 过 程 后 的 PylntBlock 
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当 一 个 block 中 还 有 剩余 的 内 存 没 有 被 一 个 PyTntObject 上 用 有 时, free_1ist 就 不 会 
指向 NULL。 所 以 在 这 种 情况 下 调用 pyinit_rromtiong 不 会 申请 新 的 block。 只 有 在 所 有 
block 中 的 内 存 都 被 占用 了 , pyInt_Fromtong 才 会 再 次 调用 fi1l_free_1ist 申请 新 的 空 
间 ， 为 新 的 pyIntobject 创造 新 的 家 园 。 


前 面 我 们 提 到 ，Python 是 通过 biock_l ist 来 维护 整个 更 数 对 象 的 通用 对 象 池 的 。 显 
然 ， 这 里 新 创建 的 block 也 必须 加 入 到 block_1list 所 维护 的 链表 中 ， 这 个 链 入 的 动作 在 
代码 清单 2-3 的 [处 完成 。 作 为 一 个 例子 ， 图 2.6 显示 了 两 次 申请 block 后 block list 所 
维护 的 链表 的 情况 。 值 得 注意 的 是 ，block_list 始终 是 指向 最 新 创建 的 PyintBlock 对 象 。 


图 2-6 ”PyintBlock 的 链表 


2.2.4.3 使 用 通用 整数 对 象 池 


在 PyInt_FromLong 中 ， 在 必要 的 空间 被 申请 之 后 ，Python 会 从 当前 由 free list 所 
维护 的 自由 内 存 链 表 中 划 出 一 块 ， 并 在 这 块 内 存 上 创建 所 需要 的 新 的 pyIntObject 对 象 ， 
同时 ， 还 会 对 PyIntobject 对 象 完成 必要 的 初始 化 工作 。 当 然 ， Python 还 将 调整 free_ 
list 指针 ， 使 其 指向 下 一 抉 还 没有 被 使 用 的 内 存 。 


在 图 2-6 中 我 们 发 现 ， 两 个 PyIntBlock 处 于 同一 个 链表 当中 ， 但 是 每 一 个 PyIntBlock 
中 至 关 重 要 的 存放 ByIntobject 对 象 的 objects 却 是 分 离 的 。 这 样 的 结构 存在 着 隐患 ， 
考虑 这 样 的 情况 : 


现在 有 两 个 PyIntBlock 对 象 ，pyIntBlock1 和 PyIntBlock2，pyTnt8Bliockli 中 的 
objects 已 经 被 pyIntobject 对 象 填 满 ， 而 pyIntBlock2 种 的 object 只 填充 了 一 部 分 。 
所 以 现在 free_list 指针 指向 的 是 pyrntpiock2.objects 中 空闲 的 内 存 块 。 假 设 现在 
PyIntBlockl .objects 中 的 一 个 byintobject 对 象 被 删除 了 ， 这 意味 着 PYIntBlockl 
中 出 现 了 一 块 空闲 的 内 存 ,那么 下 次 创建 新 的 Pyintobject 对 象 时 应 该 使 用 pyIntBlocki 
中 的 这 块 内 存 。 倘 若 不 然 ， 就 意味 着 所 有 的 内 存 只 能 使 用 一 次 ， 这 女 内 存 泄漏 也 就 没什么 
区 别 了 。 

如 何 才能 使 Python 意识 到 这 块 重 获 自由 的 内 存 呢 ? 如 果 像 图 2-6 所 示 的 PyIntBlock 
对 象 问 的 objects 没有 任何 联系 , 显然 不 可 能 实现 这 样 的 功能 ， 所 以 它们 之 间 一 定 存 在 联 
系 。 实际 上 , 不 同 PyIntBlock 对 象 的 objects 中 的 空闲 内 存 块 是 被 链接 在 一 起 的 ， 形成 了 
一 个 单 向 链表 ， 指 问 表 头 的 指针 正 是 Eree isto 
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那么 , 不 同 PyIntBlock 中 的 空闲 内 存 块 是 在 什么 时 候 被 链接 在 一 起 的 呢 ， 这 一 切 都 发 
生 在 一 个 pyIncobject 对 象 被 销毁 的 时 候 。 

列 位 看 官 ， 花 开 两 傈 ， 各 表 一 枝 @@， 这 里 我 们 完 放 下 自由 内 存 链表 ， 人 和 仔细 考察 一 下 一 
个 ayintobject 对 象 在 被 销毁 时 都 发 生 了 什么 事 。 在 对 Python 中 对 和 象 机 制 的 分 析 中 ， 我 
们 已 经 看 到 ， 每 一 个 对 象 都 有 一 个 引用 计数 与 之 相关 联 ， 当 这 个 引用 计数 减少 到 0 时， 就 
意味 着 这 个 世上 再 也 没有 谁 需要 它 了 ， 于 是 Python 会 负责 将 这 个 对 象 销 贷 。Python 中 不 
闻 对 象 在 销毁 时 会 进行 不 同 的 动作 ， 销 毁 动 作 在 与 对 象 对 应 的 类 型 对 象 中 被 定义 ， 这 个 关 
键 的 操作 就 是 类 型 对 象 中 的 tp_dealloc。 


下 面 看 一 看 PyIntobject 对 象 的 sp_dealloc 操作 ; 





在 前 面 我 们 说 了 ， 由 block_list 维护 的 EyIntBlock 链表 中 的 内 存 实际 是 所 有 的 大 
翰 数 对 象 共同 分 享 的 。 俗 话说 ， 皇 帝 轮流 坐 ， 明 年 到 我 家 。 当 一 个 PyintObject 对 象 被 
销毁 时 ， 它 所 占有 的 内 存 并 不 会 被 释放 ， 归 还 给 系统 ， 而 是 继续 被 Python 保留 着 。 但 是 
这 一 块 内 存在 整数 对 象 被 销毁 后 变 为 了 自由 内 存 ， 将 来 可 供 别 的 PyIntobject 使 用 ， 所 
以 Python 应 该 将 其 链 入 了 Eree_1list 所 维护 的 自由 内 存 链表 。int_aeailoc 完成 的 就 是 
这 么 一 个 简单 的 指针 维护 的 工作 。 当 然 ， 这 些 动作 是 在 销毁 的 对 象 确实 是 一 个 
pyvintobject 对 象 时 发 生 的 。 如 果 删 除 的 对 象 是 一 个 整数 的 派生 类 的 对 象 ， 那 么 
int_aealloc 不 做 任何 动作 ， 只 是 简单 地 调用 派生 类 型 中 指定 的 tp_free。 

在 图 2-7 中 我 们 相继 创建 和 删除 EyIintobject 对 象 , 并 展示 了 这 一 过 程 中 ,内 存 中 的 
pyIntobject 对 象 以 及 free_list 指针 的 变化 情况 。 请 注意 ， 在 Python 的 实际 行 为 中 ， 
创建 2、3、4 这 样 的 整数 对 象 ， 使 用 的 实际 上 是 .small_incs 这 个 小 整数 对 象 池 ， 在 这 里 我 
们 的 目的 仅仅 是 为 了 展示 通用 整数 对 象 池 的 动态 变化 ， 没 有 考虑 2、3、+4 实际 使 用 的 内 存 。 
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他 
Pyint FromLong(3) Pylnt_FromLong(4) 





Pylnt_FromLong(2) 
2-7 创建 和 删除 PylntObject 对 象 时 缓冲 池 的 变化 


现在 回头 来 看 看 刚才 提 到 的 不 同 byTntBlock 对 和 象 的 objects 间 的 空闲 内 存 的 互 连 问 
题 。 其 实 很 简单 , 不同 pytntBlock 对 象 中 空闲 内 存 的 互 连 也 是 在 int_dealioc 被 调用 时 
实现 的 。 图 2-8 CA 人 


er Ey a 调用 int_dealloc Ey E23 


六 
Cm A” NY nv 


NS- 
图 2-8 ”不同 PylntBlock 中 的 空闲 内 存 的 互 连 


图 2-8 中 隐藏 着 Python 的 整数 对 象 系统 实现 中 的 一 个 惊天 隐秘 , 细心 的 谈 者 一 定 发 现 
了 ， 当 一 个 整数 对 象 的 引用 计数 变 为 0 时 ， 就 会 被 Python 回收 , 但 是 在 int_aeallse 中 ， 
正如 图 2-8 所 示 ， 仪 仅 是 将 该 整数 对 音 的 内 存 重新 加 入 到 自由 内 存 链表 中 。 也 就 是 说 ， 在 
int_dealloc 中 ， 永 远 不 会 向 系统 堆 交 还 任何 内 存 。 一 旦 系统 堆 中 的 某 抉 内 存 被 Python 
申请 用 于 不 数 对 象 ， 那 么 这 块 内 存在 Python 结束 之 前 ， 永 远 不 会 被 释放 。 这 昕 上 去 跟 内 
存 泄漏 极为 相似 ， 尽 管 从 Python 的 通用 整数 对 鱼池 的 实现 我 们 可 以 看 到 ， 由 于 内 存 共享 ， 
Python 用 于 实现 该 对 象 池 的 内 存 与 历史 上 创建 的 整数 对 象 的 个 数 无 关 , 而 仅 仪 与 间 一 时 刻 
共存 的 整数 对 象 个 数 的 最 大 值 有 关 ， 但 是 ， 从 理论 上 ， 我 们 仍然 可 以 利用 这 一 漏洞 将 系统 
的 内 存 全 部 吃 光 。 做 一 个 简单 的 计算 就 可 以 看 到 这 一 点 ， 一 个 PyIntobject 对 和 象 的 大 小 
是 12 个 字 节 ， 假 如 系统 有 1GB 内 存 ， 那 么 这 1GB 的 内 存 仅 仪 可 容纳 从 0 到 89 478 486 
的 整数 对 象 ， 坦 白 说 ， 这 个 值 ， 对 于 希望 利用 这 一 实现 漏洞 的 人 来 说 ， 并 不 大 。 
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2.2.5 小 整数 对 象 池 的 初始 化 


现在 ， 关 于 Python 的 整数 对 象 系统 ， 还 剩 下 最 后 一 个 问题 了 。 在 small_ints 中 (如 
2.9 所 示 )， 我 们 看 到 ， 它 维护 的 只 是 eytntobject 的 指针 ， 那 么 这 些 与 天 地 同 寿 的 小 
人 是 在 什 入 和约- 完成 这 一 切 的 神秘 的 函数 正 是 _pyine_tnit。 





从 小 整数 的 创建 过 程 中 可 以 看 到 ， 这 些 永 生 不 天 的 小 整数 对 象 也 是 生存 在 由 block_ 
list 所 维护 的 内 存 上 的 。 在 Python 初始 化 的 时 候 ，_PyInt_Init 被 调用 ， 内 存 被 申请 ， 
sa 





small_ints hh 


权 国 思 闻 


BEESEEEEEE 


图 2-9 初始 化 完成 之 后 的 small_ints 
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2.3 Hack PylntObject 
FREE 


战 一 场 @。 et 的 束 数 对 1 系统 的 杰 化 ea 完全 可 以 通过 


修改 Python 源码 来 实现 。 我 们 修改 了 int_print 的 行为 ， 让 它 打印 出 关于 block_ list 
和 free list 以 及 小 整数 组 冲 池 的 信息 : 


Python 刻 码 前 匠 一 一 深度 底 匡 动态 语 营 粮 心 项 天 
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需要 特别 注意 的 是 , 在 初始 化 小 整数 缓冲 池 时 , 对 于 block_1ist 及 每 个 PyIntBlock 
的 objects， 都 是 从 后 往 前 开始 填充 的 ， 所 以 在 初始 化 完成 后 ，-5 应 该 在 最 后 一 个 
PyIntBlock 对 象 的 objects 内 最 后 一 块 内 存 ， 所 以 我 们 需要 顺 茧 摸 瓜 ， 一 直 找 到 这 最 后 
的 一 块 内 存 ， 才 能 观察 从 -5 到 4 这 10 个 小 整数 。 

首先 我 们 创建 一 个 ByIntobject 对 象 -9999， 从 图 2-10 所 示 的 输出 信息 可 以 看 到 , 小 
整数 对 象 很 多 都 被 Python 自身 使 用 多 次 了 。 


>> = -9999 
p72> 
address ®@00CI9IFO 


Value : -5 = 
refont : 1 1 
block_list count : 三 
free list : 00C191E4 


图 2-10 ”整数 对 象 系统 内 部 状态 之 一 


现在 的 tree_list 指向 地 址 为 00C191E4 的 内 存 , 根据 上 面 对 ByIntobject 的 分 析 ， 
那么 下 一 个 pytntobject 会 在 这 个 地 址 安身 立 命 。 那 么 好 ， 我 们 接着 再 建立 了 两 个 pyInt- 


object 对 象 ， 它 们 的 值 分 别 是 -12345;， 


> a = ~12345 
> a 
dirass DOC191Ed4 





blook_ list count : fy 
Tree list : Eee 


222 b 三 一 2345 





Free list : 00C191D8 


图 2-11 整数 对 象 系统 内 部 状态 之 二 


从 图 2-11 所 示 的 结果 中 可 以 看 到 a 的 地 址 正 是 创建 主 后 free_1list 所 指 的 地 址 ， 而 
b 的 地 址 也 正 是 创建 a 后 free_list 所 指 的 地 址 。 虽然 a 和 ?的 值 都 是 一 样 的 ， 但 是 它们 
确实 是 两 个 完全 没有 关系 的 pyIntobject 对 象 ， 这 点 从 地 址 上 看 得 一 清二 楚 。 


b 删 除 ， 结 果 如 图 2-12 所 示 : 


adcdraess E00C191E4 
valuse : ~5 - 


refcnt : 1 1 
blook: list count : 6 
free list : 00C191FC 





2-12 ”整数 对 象 系统 内 部 状态 之 三 
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删除 b 后 ，free_list 回 退 到 了 a 创建 后 fzee_tist 的 位 置 ， 这 一 点 也 跟前 面 的 分 
析 是 一 致 的 。 

最 后 我 们 来 看 一 看 对 小 整数 对 象 的 监控 ， 连 续 两 次 创建 PyIntObject 对 和 象 -5， 结 果 
如 图 2-13 所 示 : 


address O00ABSY48 
value : -5 -这 
refont :; 5 1 
block_list coumt : 6 
free list : 00CI9IFC 


address 0Q00AB5948 
valye ; -3 -4 
refont : 6 i 
blook_list count : 6 
free_ list : O0C191FC 





图 2-13 小 整数 对 象 的 内 部 状态 


可 以 看 到 ,两 次 创建 的 PyIntobject 对 象 cl 和 c2 的 地 址 都 是 00AB5948, 这 证 明 它 
们 实际 上 是 同一 个 对 象 。 同 时 ， 我 们 看 到 小 整数 池 中 -5 的 引用 计数 发 生 了 变化 ， 这 证 明 
ci 和 c2 实际 上 都 是 指向 这 个 对 铺 的 。 此 外 ，fFree_list 没有 发 生 任 何 变 化 。 这 些 都 与 我 
们 对 PyIntobject 的 分 析 相 符 。 


Python 六 读 曾 新 一 一 深 必 这 匡 动态 访 诗 类 心 此 关 
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在 对 pyIntobject 的 分 析 中 ,我 们 看 到 了 Python 中 具有 不 可 变 长 度数 据 的 对 象 《 定 长 
对 象 )。 在 Python 中 , 还 大 量 存在 着 另 一 种 对 象 , 即 具 有 可 变 长 度数 据 的 对 象 ( 变 长 对 象 )， 
与 定 长 对 象 不 同 ， 对 于 变 长 对 象 而 言 ， 对 象 维护 的 数据 的 长 度 在 对 象 定义 时 是 不 知道 的 。 


考虑 整数 对 象 ByIntobjecc， 其 维护 的 数据 的 长 度 在 对 象 定义 时 就 已 经 确定 了 ， 它 是 
一 个 C 中 long 变量 的 长 度 ;， 而 可 变 对 象 维护 的 数据 的 长 度 只 能 在 对 象 创建 时 才能 确定 ， 
举 个 例子 来 说 ， 我 们 只 能 在 创建 一 个 字符 串 或 一 个 列表 时 知道 它们 所 维护 的 数据 的 长 度 ， 
在 此 之 前 ， 对 这 个 信息 ， 我 们 一 无 所 知 。 


前 一 章 描述 了 “可 变 对 象 ” 和 “不 可 变 对 象 ”的 区 别 ， 在 变 长 对 象 中 ， 实 际 上 也 还 可 
分 为 可 变 对 象 和 不 可 变 对 象 。 可 变 对 象 维护 的 数据 在 对 象 被 创建 后 还 能 再 变化 ， 比 如 一 个 
list 被 创建 后 ， 可 以 向 其 中 添加 元 素 或 删除 元 素 ， 这 些 操作 都 会 改变 其 维护 的 数据 ， 而 
不 可 变 对 刍 所 维护 的 数据 在 对 象 创建 之 后 就 不 能 再 改变 了 ， 比 如 Python 中 的 string 和 
cuple， 它 们 都 不 支持 添加 或 删除 的 操作 。 本 章 我 们 将 研究 Python 变 长 对 象 中 的 不 可 变 对 
象 一 一 字符 串 对 象 。 


PyStringObject 与 PyString_Type 


在 Python 中 ，Pystringobject 是 对 字符 串 对 象 的 实现 。Pystringobject 是 一 个 拥 
有 可 变 长 度 内 存 的 对 象 ， 这 一 点 非常 容易 理解 ， 因 为 对 于 表示 “Hi” 和 “Python” 的 两 个 
不 同 的 pystringObject 对 象 ， 其 内 部 所 需 的 保存 字符 串 内 容 的 内 存 空 间 显然 是 不 一 样 
的 。 同 时 ，pystringobject 对 象 又 是 一 个 不 变 对 象 ， 当 创建 了 一 个 PystringObject 对 
象 之 后 ， 该 对 象 内 部 维护 的 字符 串 就 不 能 再 被 改变 了 。 这 一 点 特性 使 得 Pystringobject 
对 象 可 作为 aict 的 键 值 ， 但 同时 也 使 得 一 些 字符 串 操作 的 效率 大 大 降低 ， 比 如 多 个 字符 


Python 源 友 就 是 一 深度 区 贰 动 欢 节 膏 商人 心 花 术 
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串 的 连接 操作 。 
PYStringobject 对 象 的 定义 如 下 : 













在 pystrirnigobject 的 定义 中 我 们 看 到 ， 在 pystringobject 的 头 部 实际 上 是 一 个 
PyObject_VAR_HEAD， 其 中 有 一 个 cb_size 变量 保存 着 对 象 中 维护 的 可 变 长 度 内 存 的 大 
小 。 有 虽然 在 pystringobject 的 定义 中 ，cb_sval 是 一 个 字符 的 字符 数组 。 但 是 ob_sval 
实际 上 是 作为 一 个 字符 指针 指向 一 段 内 存 的 , 这 段 内 存 保存 着 这 个 字符 串 对 象 所 维护 的 实 
际 字符 串 ， 显 然 ， 这 上段 内 存 不 会 只 是 一 个 字 节 。 而 这 段 内 存 的 实际 长 度 ( 字 节 )， 正 是 由 
ob_size 来 维护 的 ， 这 个 机 制 是 Python 中 所 有 变 长 对 象 的 实现 机 制 。 比如 对 于 
PyStringObject 对 象 “Python”，ob_size 的 值 就 是 6。 

同 C 中 的 字符 串 一 样 ，Pystringobjec 内 部 维护 的 字符 囊 在 未 尾 必 须 以 心 0 结尾 ， 
但 是 由 于 字符 串 的 实际 长 度 是 由 ob_size 维护 的 , 所 以 PyStringObject 表示 的 字符 串 对 
象 中 间 是 可 能 出 现 字符 '\0 的， 这 一 点 与 C 语言 中 不 同 ， 因 为 在 C 中 ， 只 要 遇 到 了 字 
符 '\0'， 就 认为 一 个 字符 串 结束 了 。 所 以 ， 实 际 上 ，ob_sval 指向 的 是 一 段 长 度 为 
ob_size+1 个 字 节 的 内 存 ， 而 且 必须 满足 ob,_sval[lob_size] == ‘\0'。 

PyStringObject 中 的 ob_shash 变量 之 作用 是 缓存 该 对 测 的 hash 值 ， 这 样 可 以 避免 
每 一 次 都 重新 计算 该 字符 串 对 象 的 hash 值 。 如 果 一 个 pystringobject 对 象 还 没有 被 计 
算 过 hash 值 ， 那 么 cb_shash 的 初始 值 是 一 1。 以 后 在 剖析 Python 中 aiet 的 时 候 ， 我 们 
会 看 到 ， 这 个 hash 值 将 发 挥 巨大 的 作用 。 在 计算 一 个 字符 囊 对 象 的 hash 值 时 ， 采 用 如 下 
的 算法 : 
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pyStringobject 对 象 的 ob_sstate 变量 标记 了 该 对 象 是 否 已 经 过 intern 机 制 的 处 理 ， 
关于 pystringobject 的 intern 机 制 ， 在 后 面 会 详细 介绍 。 在 Python 源码 中 的 注释 显示 ， 
预存 字符 串 的 hash 值 和 这 里 的 intern 机 制 将 Python 虚拟 机 的 执行 效率 提升 了 20%。 

下 面 列 出 了 pystringobject 对 应 的 类 型 对 象 一 一 Pystring_Type: 






| Wi 
可 以 看 到 , 在 pystringobject 的 类 型 对 象 中 , tp_itemsize 被 设置 为 sizeof (char)， 
即 一 个 字 节 。 对 于 Python 中 的 任何 一 种 变 长 对 象 ，tp_itemsize 这 个 域 是 必须 设 秆 的 ， 
tp_itemsize 指明 了 由 变 长 对 象 保存 的 元 素 (item) 的 单位 长 度 ， 所 谓 单位 长 度 即 是 指 一 
个 元 素 在 内 存 中 的 长 度 。 这 个 tp_itemsize 和 ob_size 共同 决定 了 应 该 额外 申请 的 内 存 
之 总 大 小 是 多 少 。 

需要 注意 的 是 ， 我 们 看 到 ，tp_as_number、tp_as_sequence、 tp_as_mapping， 三 
个 域 都 被 设置 了 。 这 表示 pystringobject 对 数值 操作 、 序 列 操作 和 映射 操作 都 支持 。 


3.2 创建 PyStringObject 对 象 
Python 提供 了 两 条 路 径 ,， 从 C 中 原生 的 字符 串 创建 pystringobject 对 象 。 我 们 先 考 


察 一 下 最 一 般 的 Pystring_FromString〔( 见 代码 清单 3-1)。 
代码 清单 3-1 
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显然 ， 传 给 Pystring_Fromstring 的 参数 必须 是 一 个 指向 以 NUL (‘0') 结 尾 的 字符 
串 的 指针 。 在 从 一 个 原生 字符 串 创建 systringobject 时 ， 首 先 在 代码 清单 3-1 的 [处 检 
查 该 字符 数组 的 长 度 ， 如 果 字符 数组 的 长 度 大 于 了 py_ssizE T_MAX， 那 么 Python 将 不 会 
创建 对 应 的 Byscringobject 对 象 。pY_SSTZE fi MAX 是 一 个 与 平台 相关 的 值 ， 在 WIN32 
系统 下 ， 该 值 为 2147 483 647。 换 算 一 下 ， 就 是 2GB。 别 ， 这 个 界限 值 确实 非常 庞大 了 ， 
如 果 不 是 变态 ， 几 乎 没有 人 会 去 试图 超越 这 个 禁区 的 @。 


接 下 来 ， 在 代码 清单 3-1 的 [2] 处 ， 检 查 传 入 的 字符 串 是 不 是 一 个 空 串 。 对 于 空 串 ， 
Python 并 不 是 每 一 次 都 会 创建 相应 的 pystringobject 。Python 运行 时 有 一 个 
PystringObject 对 象 指 针 nullstring 专门 负责 处 理 空 的 字符 数组 。 如 果 第 一 次 在 一 个 
空 字符 串 基 础 上 创建 pystringobject， 由 于 nal1lstring 指针 被 初始 化 为 NULL， 所 以 
Python 会 为 这 个 空 字符 建立 一 个 pystringObject 对 象 , 将 这 个 PyStringobject 对 象 通 
过 intern 机 制 进行 共享 ， 然 后 将 null striiig 指向 这 个 被 共 襄 的 对 象 。 如 时 在 以 后 Python 
检查 到 需要 为 一 个 空 字符 串 创 建 pystringobject 对 象 ， 这 时 nuilstring 已 经 存在 了 ， 
那么 就 直接 返回 nullstring 的 引用 。 

如 果 不 是 创建 空 字符 串 对 象 ， 那 么 接 下 来 需要 进行 的 动作 就 是 申请 内 存 ， 创 建 


Python 刻 码 剖 匠 一 一 深 诬 将 美 动 杰 语言 巷 心 共 天 
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pystringObject 对 象 ,可 以 看 到 , 代码 清单 3-1 的 [外 处 申请 的 内 存 除了 PyStringobject 
的 内 存 , 还 有 为 字符 数组 内 的 元 素 申请 的 额外 内 存 。 然 后 , 将 hash 缓存 值 设 为 一 1, 将 intern 
标志 设 为 ssTaArE_NoT_TNTERNED。 最 后 将 参数 str 指向 的 字符 数组 内 的 字符 拷贝 到 
pystringObject 所 维护 的 空间 中 ， 在 拷贝 的 过 程 中 ， 将 字符 数组 最 后 的 0“ 字符 也 拷贝 
了 。 加 入 我 们 对 于 字符 数组 “Python ”建立 Pystringobject 对 象 ,那么 对 象 建立 完成 后 
在 内 存 中 的 状态 如 图 3-1 所 示 : 





PyString Objec 的 内 存 国 额外 的 内 存 
图 3-1 新 创建 的 PyStringObject 对 象 的 内 存 布局 


在 Pystring_FromString 之 外 ， 还 有 一 条 创建 pystringobject 对 象 的 途径 一 一 
pySstring_FromSstringAndsize: 


Tstr 
fi 





PyString_Fromstringandsize 的 操作 过 程 和 pystring_Fromstring 一般 无 二 ， 只 
是 有 一 点 ，Pystring_FromString 传 入 的 参数 必须 是 以 NOLt'\0') 结 尾 的 字符 数组 的 指 
针 ， 而 Ne eR 不 会 有 这 样 的 要 求 ， 因为 通过 传 入 的 size 参数 就 
可 以 确定 需要 拷贝 的 字符 的 个 数 。 
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3.3 字符 串 对 象 的 intern 机 制 
无 论 是 pystring_Fromstring 还 是 pystring_FromiSErirngAndsi ze 我 们 都 注意 到 ， 


当 字符 数组 的 长 度 为 0 或 1 时 ， 需 要 进行 一 个 特别 的 动作 ; PyString, InternInplaces, 
这 就 是 前 面 所 提 到 的 intern 机 制 。 









PyStringObject 对 象 的 intern 机 制 之 目的 是 ， 对 于 被 intem 之 后 的 字符 串 ， 比 如 
“Ruby ”， 在 整个 Python 的 运行 期 间 ， 系 统 中 都 只 有 唯一 的 一 个 与 字符 串 “Ruby” 对 应 的 
PyStringObject 对 象 。 这 样 当 判断 两 个 pystringobject 对 象 是 可 相同 时 ， 如 果 它 们 都 
被 intem 了 ， 那 么 只 需要 简单 地 检查 它们 对 应 的 pyobjiect* 是 否 相 同 即 可 。 这 个 机 制 既 节 
省 了 空间 ， 又 简化 了 对 Pystringobject 对 象 的 比较 ， 唱 ， 可 谓 是 一 箭 双 雕 哇 。 通 过 下 面 
展示 的 一 段 Python 代码 ， 我 们 来 考察 一 下 intern 机 制 的 必要 性 ; 





首先 ， 我 们 创建 了 一 个 pystringobject 对 象 a， 其 表示 的 字符 串 是 “Python”， 随 
后 , 我 们 再 一 次 为 字符 串 “python” 创 建 一 个 pystringobject 对 象 。 通常 情况 下 ， Python 
会 为 我 们 重新 申请 内 存 ， 创 建 一 个 新 的 pystringobject 对 象 b，a 与 b 是 完全 不 同 的 两 
个 对 象 ， 尽 管 其 内 部 维护 的 字符 数组 是 完全 相 闻 的 。 

这 就 带 来 了 一 个 问题 , 假如 我 们 在 程序 中 创建 了 100 个 “python” 的 pystringobject 
对 象 呢 ? 显而易见 ， 这 样 会 大 量 地 浪费 珍贵 的 内 存 。 因 此 Python 为 pystrinagobject 对 
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象 引入 了 intern 机 制 。 在 上 面 的 例子 中 ， 如 果 对 于 a 应 用 了 intern 机 制 ， 那 么 之 后 要 创建 
b 的 时 候 ，Python 会 首先 在 系统 中 记录 的 已 经 被 intem 机 制 处 理 了 的 Pystringobject 对 
象 中 查找 ， 如 果 发 现 该 字符 数组 对 应 的 pystringobject 对 象 已 经 存在 了 ,那么 就 将 该 对 
象 的 引用 返回 ， 而 不 再 重新 创建 一 个 PystringObject 对 象 。BYString_InEernInP1ace 
正 是 负责 完成 对 一 个 对 象 进行 intern 操作 的 函数 〈 见 代码 清单 3-2)。 

代码 清单 3-2 





PyString_TntecaTInP1ace 首先 会 进行 一 系列 的 检查 ， 其 中 包括 两 项 检查 内 容 : 
> ”检查 传 入 的 对 象 是否 是 一 个 Pystringobject 对 象 ,intern 机 制 只 能 应 用 在 Bystring- 
object 对 象 上 ， 甚 至 对 于 它 的 派生 类 对 象 系统 都 不 会 应 用 intern 机 制 。 
> ”检查 传 入 的 pystringobject 对 象 是 否 已 经 被 intern 机 制 处 理 过 了 , Python 不 会 对 同 
一 个 pystringobject 对 象 进行 一 次 以 上 的 Intern 操作 。 
从 代码 中 我 们 可 以 清楚 地 看 到 ，intern 机 制 的 核心 在 于 interned 这 个 东西 ， 那 么 这 个 
东西 是 个 什么 东西 呢 ? interned 在 stringobject.c 中 被 定义 为 : static Pygbject *interned。 
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从 stringobjectc 中 的 定义 我 们 完全 不 知道 interned 是 个 什么 东西 ， 然 而 在 这 里 我 们 看 
到 ，interned 实际 上 指向 的 是 pyDict_New 创建 的 一 个 对 象 。 而 PyDict_New 实际 上 创建 了 
一 个 eybictobject 对 象 ， 也 就 是 我 们 在 Python 中 经 常用 到 的 “dict” 啦 。 这 个 对 象 将 在 
后 面 的 章节 中 被 详细 地 前 析 。 现 在 ， 对 于 一 个 pyDictobject 对 象 ， 我 们 完全 可 以 看 作 是 
C++ 中 的 map， 即 map<PyObject*, pyObiect*>», 


现在 一 切 都 清楚 了 ， 所 请 的 intem 机 人 制 的 关键 ， 就 是 在 系统 中 有 一 个 (key, value) 
映射 关系 的 集合 ， 集 合 的 名 称 叫做 intermned 。 在 这 个 集合 中 ， 记 录 着 被 intemn 机 制 处 理 过 
的 PystringObject 对 象 。 当 对 一 个 Bystringobject 对 和 象 a& 应 用 intern 机 人 制 时 ， 首先 会 
在 interned 这 个 diet 中 检查 是 否 有 满足 以 下 条 件 的 对 象 b: b 中 维护 的 原生 字符 串 与 a 相 
同 。 如果 确实 存在 对 象 b, 那么 指向 a 的 .pyobject 指针 将 会 指向 b, 而 a 的 引用 计数 减 1， 
这 样 ， 其 实 a 只 是 一 个 被 临时 创建 的 对 象 ， 如 果 interned 中 还 不 存在 这 样 的 b， 那么 就 在 
代码 清单 3-2 的 [2] 处 将 a 记录 到 interned 中 。 


图 3-2 展示 了 如 果 interned 中 存在 这 样 的 对 象 吕 在 对 a 进行 intern 操作 时 , 原本 指向 
a 的 Pyobject* 指 针 的 变化 : 





intern 机 制 处 理 后 





图 3-2 intern 机 制 示 意图 


对 于 被 intern 机 制 处 理 了 的 pystringobject 对 象 ， Python 采用 了 特殊 的 引用 计数 机 
制 。 在 将 一 个 PyStringobjecE 对 象 a 的 pyobject 指针 作为 key 和 value 添加 到 interned 
中 时 ，ByDictobject 对 象 会 通过 这 两 个 指针 对 a 的 引用 计数 进行 两 次 加 !1 的 操作 。 但 是 
Python 的 设计 者 规定 在 interned 中 a 的 指针 不 能 被 视 为 对 象 a 的 有 效 引 用 ， 因为 如 果 是 有 
效 引 用 的 话 ， 那 么 a 的 引用 计数 在 Python 结束 之 前 永远 都 不 可 能 为 0， 因 为 interned 中 至 
少 有 了 两 个 指针 引用 了 a， 那 女 删 除 = 就 永远 不 可 能 了 ， 这 显然 是 没有 道理 的 。 


-一旦 | 


在 下 面 列 出 的 string_dealloc 代码 中 得 到 了 验证 ， 
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前 面 提 到 ，Python 在 创建 一 个 字符 串 时 ， 会 首先 在 interned 中 检查 是 否 已 经 有 该 字符 
串 对 应 的 pystringobject 对 象 了 ， 如 果 有 ， 则 不 用 创建 新 的 ， 这 样 可 以 节省 内 存 空间 。 
事 到 如 今 ， 我 必须 承认 ， 我 说 谎 了 @。 

节省 内 存 空间 是 没 错 的 , 可 是 Python 并 不 是 在 创建 pystringobject 时 就 通过 interned 
实现 了 节省 空间 的 目的 。 事 实 上 ， 从 pystring_Fromstring 中 可 以 看 到 ， 无 论 如 何 ， 一 
个 合法 的 pystringobject 对 象 是 会 被 创建 的 ， 同 样 ， 我 们 可 以 注意 到 ，Pystring_ 
InterninPlace 也 只 对 Pystringobject 起 作用 。 事 实 正 是 如 此 ,Python 始终 会 为 字符 整 
s 创建 pystringobject 对 象 ， 尽 管 s 中 维护 的 原生 字符 数组 在 interned 中 已 经 有 一 个 与 
之 对 应 的 pystringobject 对 象 了 ,而 intern 机 制 是 在 s 被 创建 后 才 起 作用 的 ,通常 Python 
在 运行 时 创建 了 一 个 Pystringobject 对 象 temp 后 ， 基 本 上 都 会 调用 Pystring_ 
InternznPlace 对 temp 进行 处 理 ，intern 机 制 会 减少 cemp 的 引用 计数 ，temp 对 象 会 由 
于 引用 计数 减 为 0 而 被 销毁 , 它 只 是 作为 一 个 临时 对 象 县 花 一 现 地 在 内 存 中 闪现 ， 然 后 涯 
灭 。 

现在 读者 可 能 有 一 个 疑问 了 ,是否 可 以 直接 在 C 的 康生 字符 串 上 做 intern 的 动作 ， 而 
不 需要 再 创建 这 样 一 个 临时 对 象 呢 ? 事实 上 ，Python 确实 提供 了 一 个 以 char* 为 参数 的 
intern 机 制 相关 函数 ， 但 是 你 会 相当 失望 ， 咽 ， 因 为 它 基 本 上 是 换 汤 不 换 药 的 : 


和 
yb 
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临时 对 象 照 样 被 创建 出 来 ， 实 际 上 ， 和 仔细 一 想 ， 就 会 发 现在 Python 中 ， 必 须 创建 这 
样 一 个 临时 的 pystringobject 对 象 来 完成 interm 操作 。 为 什么 呢 ? 答案 就 在 pypictobject 
对 象 intemed 中 ， 因 为 pyDictobject 必须 以 pyobject* 指 针 作为 键 。 

关于 PystringObject 对 象 的 intem 机 制 ， 还 有 一 点 需要 注意 。 实 际 上 ， 被 intern 机 
制 处 理 后 的 pystringobjsct 对 象 分 为 两 类 ， 一 类 处 于 SSTATE_INTERNED_IMMORTAD 状 
态 , 而 另 一 类 则 处 于 ssTATE_INTERNED_MORTAL 状态 ， 这 两 种 状态 的 区 别 在 string_dealloc 
中 可 以 清晰 地 看 到 ， 显 然 ，sszamEL_ITNTERNED_TMMORTAT 状态 的 pystringobject 对 象 是 
水 远 不 会 被 销毁 的 ， 它 将 与 Python 虚拟 机 同年 同月 同日 死 。 

PyString_InternInPlace 上 只 能 创建 ssTATE_INTERNED_MORTAL 状态 的 ,pystring- 
Object 对 象 ， 如 果 想 创建 SSTATE_INTERNED_IMMORTAL 状态 的 对 象 ， 必 须要 通过 另外 的 
接口 ,在 调用 了 bystring_Interninplace 后 , 强制 改变 PyStringD0biject 的 intern 状态 。 
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在 上 一 章 对 整数 对 象 的 剖析 中 我 们 看 到 , Python 为 小 整数 对 象 贴心 地 准备 了 专 有 的 组 
冲 池 。 在 “ 尊 老 爱 幼 ” 这 一 点 上 ，Python 是 做 得 相当 好 的 ， 关 似 于 小 整数 对 象 的 对 象 池 ， 
Python 的 设计 者 为 pystringobject 中 的 一 个 字 节 的 字符 对 应 的 pystringobject 对 象 也 
i i! ed characters: 








eh UCHAR_MAX A 人 
在 Win32 下 和 





在 Python 本 pp Python oy 而 字 
符 串 对 和 象 体系 中 的 字符 缓冲 池 则 是 以 静态 变量 的 形式 存在 着 的 。 在 Python 初始 化 完成 之 
后 ， 缓 冲 池 中 的 所 有 Pystringobject 指针 都 为 室 。 


当 我 们 在 创建 一 个 pystringobject 对 象 时 ， 无 论 是 通过 调用 pyString_FromSstring 
还 是 通过 调用 pystring_Fromstringandsize, 如 果 字符 串 实际 上 是 一 个 字符 , 则 会 进行 


有 ython 注 码 前 六 一 一 次 讶 训 苏 动 森 语言 巷 心 茶 厌 
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如 下 的 操作 : 


Lb i 






先 对 所 创建 的 字符 串 〈 字 符 ) 对象 进 行 intern 操作 ， 再 将 intern 的 结果 缓存 到 字符 组 


冲 池 characters 中 。 图 3-3 演示 了 缓存 一 个 字符 对 应 的 pystringobject 对 象 的 过 程 。 
: 2 





3 条 带 有 标号 的 曲线 既 代表 指针 ， 又 代表 进行 操作 的 顺序 : 
(1) ”创建 EyStrirgobject 对 象 <scring P>: 
(2) ”对 对 象 <string P> 进 行 intern 操作 ; 
(3) ”将 对 象 <string ?> 缓存 至 字符 缓冲 池 中 。 
同样 ， 在 创建 pystringobject 时 ,会 首先 检查 所 要 创建 的 是 否 是 一 个 字符 对 象 ， 然 
后 检查 字符 缓冲 池 中 是 否 已 经 有 了 这 个 字符 的 字符 对 象 的 缓冲 ， 如 果 有 ， 则 直接 返回 这 个 
缓冲 的 对 象 即 可 : 
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3.5 ”PyStringObject 效率 相关 问题 


关于 pystringobject, 有 一 个 地 球 人 都 知道 的 严重 影响 Python 程序 执行 效率 的 问题 ， 
有 一 种 说 法 ， 绝 大 部 分 执行 效率 特别 低下 的 Python 程序 都 是 由 于 没有 注意 这 个 问题 所 致 。 
下 面 我 们 就 来 看 看 这 个 在 Python 中 举足轻重 的 问题 一 字符 串 连 接 。 

假如 现在 有 两 个 字符 串 “python” 和 “Ruby”， 在 Java 或 C# 中 ， 都 可 以 通过 使 用 “+” 
操作 符 将 两 个 字符 串 连 接 在 一 起 ， 得 到 一 个 新 的 字符 串 “PythonRuby”。 当然 ，Python 中 
同样 提供 了 利用 “+ ”操作 符 连接 字符 串 的 功能 ， 然 而 不 幸 的 是 ， 这 样 的 做 法 正 是 万 恶 之 
源 ， 

Python 中 通过 “+” 进 行 字 符 串 连接 的 方法 效率 极其 低下 ， 其 根源 在 于 Python 中 的 
PyStringObject 对 和 象 是 一 个 不 可 变 对 象 。 这 就 意味 着 当 进 行 字 符 串 连接 时 ， 实 际 上 是 必 
须要 创建 一 个 新 的 pystringobject 对 象 。 这 样 , 如 果 要 连接 N 个 pystringobjett 对 象 ， 
的 执行 效率 。 

官方 推荐 的 做 法 是 通过 利用 Bystringobjsct 对 象 的 join 操作 来 对 存储 在 1ist 或 
tuple 中 的 一 组 Pystringobject 对 象 进行 连接 操作 ， 这 种 做 法 只 需要 分 配 一 次 内 存 ， 执 
行 效率 将 大 大 提高 。 

下 面 我 们 通过 考察 源码 来 更 细致 地 了 解 这 一 问题 。 

”操作 符 对 字符 串 进行 连接 时 ， 会 调用 string_concat 函数 : 


通过 “+ 


1 
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对 于 任意 两 个 pystringobject 对 象 的 连接 ， 就 会 进行 一 次 内 存 申请 的 动作 。 而 如 果 
利用 Pystringobject 对 象 的 join 操作 ， 则 会 进行 如 下 的 动作 (假设 是 对 Iist 中 的 
PyStringobject 对 象 进行 连接 ); 
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执行 join 操作 时 , 会 首先 统计 出 在 1ist 中 一 共有 多 少 个 pystringObject 对 象 , 并 
统计 这 些 pystringobject 对 象 所 维护 的 字符 串 一 共有 多 长 ， 然 后 申请 内 存 ， 将 1ist 中 
所 有 的 Pystringobject 对 象 维护 的 字符 串 都 拷贝 到 新 开辟 的 内 存 空间 中 。 注意， 这 里 只 
进行 了 一 次 内 存 空间 的 申请 ,就 完成 了 N 个 pystringObject 对 象 的 连接 操作 。 相 比 于 “+” 
操作 符 ， 待 连接 的 pystringobject 对 象 越 多 ， 效 率 的 提升 也 越 明 显 。 

通过 在 string_concat 和 string_join 中 添加 输出 代码 ， 我 们 可 以 在 图 3-4 中 形象 
地 看 到 两 种 连接 字符 串 的 方法 的 区 别 : 





3-4 ”concat 与 join 的 区 别 


3.6 Hack PyStringObject 





同上 一 章 的 Hack PyIntObiect 一 样 ， 在 这 一 节 ， 我 们 将 对 PystringObject 对 象 在 运 
行 时 的 行为 进行 两 项 观察 。 , 

首先 ， 观察 intern 机 制 ， 在 Python Interactive 坏 境 中 , 创建 一 个 pystring0bject 后 ， 
就 会 对 这 个 pystringobject 对 象 进行 intem 操作 ， 所 以 我 们 预期 内 容 相同 的 Pystring- 
object 对 象 在 inter 后 应 该 是 同一 个 对 象 ， 图 3-5 是 观察 的 结果 : 







>>》al =°*" x »> sl = “python” 
»>> lent(el) >>> len(sli) 时 
address ; OxB8C420 address ; OxB91060 
3 2 

>>》c2 = > s2 = “python” 






>>> len(c2) »>> len(s2) , 
address : 0xB8C420 address ; OxB91060 
本 3 


SNS 







图 3-5 intern 机 制 的 观察 结果 
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通过 在 string_length 中 添加 打印 地 址 和 引用 计数 的 代码 ， 我 们 可 以 在 Python 运行 
期 间 获得 每 一 个 pystringobject 对 象 的 地 址 及 其 引用 计数 (在 aaaress 下 一 行 输出 的 不 
是 字符 囊 的 长 度 信 息 ， 我 们 已 经 将 之 更 换 为 引用 计数 信息 )。 从 观察 结果 中 可 以 看 到 ， 无 
论 是 对 于 一 般 的 字符 串 ,还 是 对 于 单个 字符 ,interm 机 制 最 终 都 会 使 不 同 的 Pystringobject* 
指针 指向 相同 的 对 象 。 

然后 ， 我 们 观察 Python 中 进行 缓冲 处 理 的 字符 对 象 ， 同 样 是 通过 在 string_length 
中 添加 代码 ， 打 印 出 缓冲 池 中 从 a 到 上 的 字符 对 象 的 引用 计数 信息 。 需 要 注意 的 是 ， 为 了 
避免 执行 len (..) 对 引用 计数 的 影响 ， 我 们 并 不 会 对 a 到 e 的 字符 对 象 调用 len 操作 ， 而 
是 对 另外 的 pystringobject 对 象 调用 len 操作 : 






ii 


图 3-6 展示 了 观察 的 结果 ， 可 以 看 到 ， 在 创建 字符 对 象 时 ，Python 确实 只 是 使 用 了 组 
冲 池 里 的 对 象 ， 而 没有 创建 新 的 对 象 : 
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图 3-6 ”Python 内 部 的 字符 缓冲 池 
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元 素 的 一 个 群 是 一 个 非常 重要 的 抽象 慨 念 , 我 们 可 以 将 符合 某 一 特性 的 一 堆 元 素 聚 集 
为 一 个 群 ， 当 然 ， 还 要 可 以 向 群 中 添加 或 删除 元 素 。 这 样 的 群 的 概念 对 于 编程 语言 十 分 重 
要 ，C 语言 就 内 建 了 数组 的 概念 ， 随 着 编程 语言 的 发 展 ， 现 在 所 有 的 编程 语言 都 会 在 语言 
中 或 标准 库 中 实现 这 样 的 群 。 而 且 群 的 概念 还 进一步 地 细 分 为 多 种 实现 方式 ， 比 如 map、 
vector 等 。 每 一 种 实现 都 为 某 种 目的 的 元 素 聚 集 或 元 素 访问 提供 了 极 大 的 方便 。 

PyListobject 是 Python 提供 的 对 列表 的 抽象 ， 如 果 你 熟悉 C++， 那 么 很 可 能 会 条 件 
反射 地 将 PyListobject 与 C++ 中 的 1iet 对 应 起 来 (至 少 它们 名 字 是 相似 的 )。 然 而 实际 
上 ，Python 中 的 列表 和 C++ 的 STL 中 1ist 是 大 相 径 庭 ， 相 反 ， 它 与 STL 中 的 vector 却 
更 为 神似 。 


4.1 PyListObject 对 象 





PyListObject 对 和 象 可 以 有 效 地 支持 对 元 素 的 插入 、 添 加 、 删 除 等 操作 ， 在 Python 的 
列表 中 , 无 一 例外 地 存放 的 都 是 pyobject* 指 针 。 所 以 实际 上 ， 我们 可 以 这 样 看 待 Python 
中 的 pybistobject: vector<PpyObject*>。 

很 显然 ,PyListobject 一 定 是 一 个 变 长 对 象 ,因为 不 同 的 1ist 中 存储 的 元 素 个 数 会 
是 不 同 的。 但 是 ， 和 PystringObject 不 同 的 是 ，pyListobject 对 象 还 支持 插入 删除 等 
操作 ， 可 以 在 运行 时 动态 地 调整 其 所 维护 的 内 存 和 元 素 ， 所 以 ， 它 还 是 一 个 可 变 对 象 。 
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如 我 们 所 想 , 在 PyListobject 的 头 , 赫然 是 一 个 pyobject_vaAR_HEAD， 随后 是 一 个 

类 型 为 Pyobject** 的 ob_item， 这 个 指针 和 紧 接着 的 sllocated 数值 正 是 维护 元 素 列表 

(也 就 是 Pyobject* 列 表 ) 的 关键 。 指 针 指 向 了 元 素 列表 所 在 的 内 存 块 的 首 地 址 ， 而 
allocated 中 则 维护 了 当前 列表 中 的 可 容纳 的 元 素 的 总 数 。 


我 们 知道 在 eyobject_VaR_HEaDb 中 ， 有 一 个 ob_size， 而 在 by5istcobject 的 最 后 ， 
又 有 一 个 allocatea， 那 么 这 两 个 变量 之 间 的 关系 是 什么 呢 ? 


其 实 ，ob_size 和 allocated 都 和 bytistobjecc 对 象 的 内 存 管理 有 关 ， PyList- 
object 所 采用 的 内 存 管理 策略 和 C++ 中 vector 采取 的 内 存 管理 策略 是 一 样 的 。 它 并 不 是 
存 了 多 少 东 西 就 申请 对 应 大 小 的 内 存 ， 这 样 的 内 存 管理 策略 显然 是 低 效 的 ， 因 此 我 们 有 理 
由 相信 ， 用 户 选 用 列表 正 是 为 了 频繁 地 插入 或 删除 元 素 。 所 以 ， 在 每 一 次 需要 申请 内 存 的 
时 人 息 ，PyListobject 总 会 申请 一 大 块 内 存 ， 这 时 申请 的 总 内 存 的 大 小 记录 在 allocated 
中 ， 而 其 中 实际 被 使 用 了 的 内 存 的 数量 则 记录 在 了 ob_size 中 。 假 如 有 一 个 能 容纳 10 个 
元 素 的 PyListobject 对 象 已 经 装 入 了 5 个 元 素 ， 那 对 于 这 个 pytistobjecet 对 象 ， 其 
ob_size 为 5， 而 allocated 则 为 10。 


所 以 ， 我 们 不 难得 到 ， 对 于 一 个 pyListobject 对 象 ， 一 定 存在 以 下 的 关系 ; 
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这 里 ob_size 和 allocatead 的 关系 就 像 C++ 的 vector 中 size 和 capacity 的 关系 
一 样 。 从 这 里 我 们 实际 上 已 然 可 以 罕见 pyListopjact 管理 元 素 的 策略 了 。 


4.2 ”PyListObject 对 象 的 创建 与 维护 





4.2.1 创建 对 象 


为 了 创建 一 个 列表 ，Python 只 提供 了 唯一 的 一 条 途径 一 一 pyList_New。 这 个 函数 接 

受 一 个 size 参数 ， 从 而 允许 我 们 可 以 在 创建 一 个 pybistobject 对 象 的 同时 指定 该 列表 

初始 的 元 素 个 数 。 需 要 注意 ， 这 里 仅仅 指定 了 元 素 的 个 数 ， 并 没有 指定 元 素 是 什么 。 我 们 
”来 看 一 看 Python 创建 pyListobject 对 象 的 过 程 ( 见 代码 清单 4-1)。 


代码 清单 4-1 





Python 泌 码 前 六 一 深度 架 贰 动态 语言 靛 心 横 天 





4.2 ”PyListObject 对 象 的 创建 与 维护 硬 65 





首先 ，Python 在 代码 清单 4-1 的 [1] 处 会 计算 需要 使 用 的 内 存 总 量 ， 因 为 pyList_New 
指定 的 仅仅 是 元 素 的 个 数 ， 而 不 是 元 素 实际 将 占用 的 内 存 空 间 。 在 这 里 ，Python 会 检查 指 
定 的 元 素 个 数 是 否 会 大 到 使 所 需 内 存 数 量 产 生 滋 出 的 程度 ， 如 果 会 产生 溢出 ,， 邦 么 Python 
将 不 会 进行 任何 动作 。 


接 下 来 ， 就 是 Python 对 列表 对 象 的 创建 动作 。 我 们 可 以 清晰 地 看 到 ，Python 中 的 列 
表 对 和 象 实际 上 是 分 为 两 部 分 的 ， 一 是 PyListobject 对 得 本 身 ， 二 则 是 PyListobject 对 
象 维护 的 元 素 列表 。 这 是 两 块 分 离 的 内 存 ， 它 们 通过 ob_item 建立 了 联系 。 在 本 章 的 描述 
中 ， 我 们 并 不 严格 地 区 分 pyListobject 对 象 和 其 维护 的 元 素 列表 之 间 的 差异 ， 有 了 时候 我 
们 会 以 PyListobject 对 象 来 代表 Python 中 元 素 列表 ,有 时 我 们 则 会 清晰 地 指出 “eyLisc- 
object 对 象 中 维护 的 列表 对 象 ” 根据 上 下 文 环 境 ， 读 者 可 以 很 容易 地 加 以 区 分 和 理解 。 

在 代码 清单 4-1 的 [2] 创 建新 的 eyListobject 对 象 时 ， 我 们 看 到 了 现在 已 经 非常 熟悉 
的 Python 对 象 级 的 缓冲 池 技 术 。 在 创建 pyEistobject 对 象 时 ， 会 首先 检查 缓冲 池 
free_lists 中 是 否 有 可 用 的 对 象 ， 如 果 有 ， 则 直接 使 用 这 个 可 用 对 象 ， 如 果 缓 冲 池 中 所 
有 对 象 都 不 可 用 ， 则 会 通过 pyobject_GC_New 在 系统 堆 中 申请 内 存 ， 创 建新 的 PyList- 
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object 对 象 。 实 际 上 ，Pyobjecc_Gc_New 除了 申请 内 存 之 外 ， 还 会 为 Python 中 的 自动 垃 
圾 收集 机 制 做 一 些 准备 工作 ， 不 过 在 这 里 ， 我 们 还 不 打算 深入 到 Python 的 垃圾 收集 机 制 
中 , 对 垃圾 收集 机 制 的 考察 会 作为 单独 的 一 章 在 后 面 讲解 , 这 里 , 我 们 只 需要 将 pyObject_ 
GC_New 想象 成 malloc 即 可 。 在 Python 2.5 中 ， 默 认 情 况 下 ，free_liasts 中 最 多 会 维护 
80 个 pyListobject 对 象 。 





当 Python 创建 了 新 的 PyListobject 对 象 之 后 ， 在 代码 清单 4-1 的 [3] 处 ， 会 立即 根 
据 调 用 PyList_New 时 传递 的 size 参数 创建 pyListobject 对 象 所 维护 的 元 素 列 表 。 在 
这 里 创建 的 pyListobject* 列 表 ， 其 中 的 每 一 个 元 素 都 会 被 初始 化 为 NULL 值 。 


完成 了 Pybistobject 对 象 及 其 维护 的 列表 的 创建 之 后 ，Python 会 调整 该 pyList- 
object 对 象 ， 用 于 维护 元 素 列 表 中 无 素数 量 的 ob_size 和 allocated 两 个 变量 。 


细心 的 读者 一 定 注 意 到 了 ,在 代码 清单 4-1 的 [2] 处 提 及 的 pyListobject 对 象 缓 冲 池 ， 
实际 有 一 个 很 奇特 的 地 方 。 我 们 看 到 ,在 free_lists 中 缓存 的 只 是 pyListobject*， 那 
么 这 个 缓冲 池 里 的 Bytistobject* 究 竟 指 向 什么 地 方 呢 ? 换 句 话说 ,这 些 pytistobjecty 
指 问 的 PyListobject 对 象 是 在 何 时 何 地 被 创建 的 呢 ? 


列 位 看 官 ， 花 开 两 条 ， 各 表 一 枝 。 我 们 先 把 这 个 问题 放 一 放 ， 看 一 看 在 Python 开始 
运行 时 ， 第 一 个 pybistobject 对 象 被 创建 时 的 情形 。 唱 ， 这 有 点 像 上 帝 创 世纪 ， 插 有 趣 
的 @。 


4.2.2 ”设置 元 素 


在 第 一 个 pybistobject 创建 的 时 候 ， 这 时 的 num_free_iists 是 0， 所 以 在 代码 清 
单 4-1 的 [2] 处 会 绕 过 对 象 缓冲 池 ， 转 而 调用 pyobjecc_Gc_New 在 系统 堆 上 创建 一 个 新 的 
PybListObject 对 象 ， 假 设 我 们 创建 的 PyListobject 是 包含 6 个 元 素 的 pyListobject， 
也 就 是 通过 pyList_New(6) 来 创建 pybistobject 对 象 ， 在 pyList_New 完成 之 后 ， 这 混 
沌 初 开 的 第 一 个 pyListobject 对 象 的 情形 可 以 从 图 4-1 中 看 到 。 
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图 4-1 新 创建 的 PyListObject 对 象 


需要 注意 的 是 ， 当 我 们 在 Python 的 交互 式 环境 或 者 .py 源 文件 中 创建 一 个 1ist 时 ， 
内 存 中 的 PyListobject 对 象 中 元 素 列 表 中 的 元 素 不 可 能 是 NULL。 这 里 我 们 只 是 为 了 演 
示 元 素 列表 的 变化 ， 所 以 不 必 在 意 元 素 是 否 可 以 为 NULL。 

一 个 什么 东西 都 没有 的 1ist 当然 是 很 无 趣 的 ， 我 们 来 尝试 向 里 边 添加 一 点 东西 ， 把 
一 个 整数 对 象 100 放 到 第 4 个 位 置 上 去 ， 用 Python 的 行 话 来 说 就 是 list13] = 100 ( 见 
代码 清单 4-2)。 
代码 清单 4-2 






当 我 们 在 Python 中 运行 1ist[3] = 100 时 ,在 Python 内 部 ,就 是 调用 pyList_SetItem 
来 完成 这 个 动作 。 首 先 Python 会 进行 类 型 检查 ， 在 这 里 我 们 省 略 了 。 和 随后 ， 在 代码 清单 
4-2 的 [1 处， 会 进行 索引 的 有 效 性 检查 。 当 类 型 检查 和 索引 有 效 性 检查 都 顺利 通过 之 后 ， 
Python 在 代码 清单 4-2 的 [2] 处 将 待 加 入 的 pyobject* 指 针 放 到 指定 的 位 置 , 然后 调整 引用 
计数 ， 将 这 个 位 置 原来 存放 的 对 象 的 引用 计数 减 1。 这 里 的 olaitem 很 可 能 会 是 NULL， 
比如 向 一 个 新 创建 的 PyListobject 对 象 加 入 元 素 ， 就 会 碰 到 这 样 的 情况 ， 所 以 这 里 必须 
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使 用 py_xpECREF。 


好 了 ， 现 在 我 们 的 pytistobject 对 象 再 不 是 当年 那个 一 穷 二 白 的 可 怜 虫 了 ， 其 情形 
如 图 4-2 所 示 : 





4-2 设置 元 素 后 的 PyListObject 对 象 


4.2.3 插入 元 素 


设置 元 素 和 插入 元 素 的 动作 是 不 同 的 , 设置 元 素 不 会 导致 uo_itcem 指向 的 内 存 发 生变 
化 ,而 插入 元 素 的 动作 则 有 可 能 使 得 ob_item 指向 的 内 存 发 生变 化 。 图 4-3 中 显示 了 设置 
元 素 和 插入 元 素 的 区 别 : 










> ys VU, 
>>> ist[3] = 100 
>>> lst 
toy 0 Pr 007 fs 01 


lst .insert (3, 99) 








0; Dm :99; ‘4100, 0Q, ‘83 
图 4-3 设置 元 素 与 插入 元 素 

其 中 的 1st13] = 100 正 是 我 们 在 上 一 节 讨论 过 的 设置 元 素 的 动作 ,而 Lst .insert (3， 
99) 则 是 插入 元 素 的 动作 ， 从 图 4-3 的 结果 可 以 看 到 ， 这 个 插入 动作 确实 导致 了 元 素 列表 
的 内 存 的 变化 。 接 下 来 会 深入 地 齐 析 插入 元 素 的 动作 是 如 何 导 致 元 素 列表 的 内 存 发 生变 化 
的 《〈 见 代码 清单 4-3)， 我 们 就 以 图 4-3 所 示 的 在 100 之 前 插入 99 为 例 。99 确实 是 在 100 
之 前 的 ， 这 个 地 球 人 都 知道 @, 
代码 清单 4-3 
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Python 内 部 通过 调用 PyList_Insert 来 完成 元 素 的 插入 动作 , 而 pyList_Insert 实 
际 上 是 调用 了 Python 内 部 的 insi。 在 ins1l 中 ， 为 了 完成 元 素 的 插入 工作 ， 必 须 首先 保 


证 一 个 条 件 得 到 满足 ， 那 就 是 pyListobject 对 象 必须 有 足够 的 内 存 来 容纳 我 们 期 望 插入 
的 元 素 。Python 通过 在 代码 清单 4-3 的 [1] 处 调用 了 1ist_resize 函数 来 保证 该 条 件 一 定 
能 成 立 。 仅 仅 从 函数 名 我 们 就 可 以 想象 ， 这 个 函数 一 定 是 改变 了 pyListobject 所 维护 的 
PyObject* 列 表 的 大 小 。 
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在 调整 pyListobject 对 象 所 维护 的 列表 的 内 存 时 ，Python 分 两 种 情况 处 理 ， 
newsize < allocated && newsize > allocated/2 : 简单 调整 ob_size 值 ; 
> 其 他 情况 ， 调 用 realloc， 重 新 分 配 空间 。 
可 以 看 出 ，Python 对 内 存 可 谓 是 理 精 端 虑 了 ， 甚 至 在 第 2 种 情况 中 ， 当 newsize 与 
allocated 的 关系 满足 newsize < allcated/2 的 时 候 ， Python 甚至 还 会 通过 realloc 
来 收缩 列表 的 内 存 空间 ， 真 是 恨不得 把 一 个 字 节 狂 成 两 个 字 节 来 用 。 


将 PyListopject 的 空间 调整 之 后 ， 函 数 insi 在 实际 插入 元 素 之 前 还 需要 在 代码 清 
单 4-3 的 [2] 处 首先 确定 元 素 的 插入 点 。Python 的 1ist 操作 非常 灵活 ， 支 持 一 个 很 有 趣 的 
特性 ， 就 是 负 值 索引 ， 比 如 一 个 m 个 元 素 的 1ist: lst [In], 那么 1st1-1] 就 是 lst {rn-1].。 
作为 对 灵活 性 的 代价 ，Python 对 插入 点 的 确定 就 不 能 像 STL 中 vector 那样 址 被 了 当 ， 必 
须 处 理 负数 的 情形 。 


可 以 看 到 ， 不 管 你 插入 在 什么 位 置 ， 对 于 Python 来 说 ， 都 是 合法 的 ， 它 会 自己 调整 
插入 的 位 置 。 在 确定 了 搬入 的 位 置 之 后 ，Python 会 在 代码 清单 4-3 的 [3] 处 开始 搬 动 元 素 ， 
将 插入 点 之 后 的 所 有 元 素 向 下 挪动 一 个 位 置 ， 这 样 ， 在 插入 点 就 能 空 出 一 个 位 置 来 。 一 旦 
搬移 元 素 的 工作 完成 ， 实 际 上 也 就 是 大 功 告 成 了 ， 我 们 想 插 六 的 元 素 有 了 容 身 之 地 了 。 


热 悉 C++ 的 读者 一 定 看 出 来 了 ， 这 种 处 理 插入 的 方法 实际 上 与 C++ 中 的 wector 完全 
一 致 。 没 错 ， 正 如 我 们 前 面 提 到 的 ，Python 中 的 pyListobject 对 象 与 C++ 中 的 vector 
是 非常 相似 的 ， 相 反 ， 它 和 C++ 中 的 Tist 却 是 大 相 径 庭 的 。 


Python 进行 元 素 搬入 的 动作 流程 如 图 4-4 所 示 : 





4-4 通过 insert 向 PyListObject 对 象 中 插入 元 素 
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值得 注意 的 是 ， 通 过 与 vector 类 似 的 内 存 管理 机 制 ， 现 在 ，PyListobject 的 
alilocated 已 经 变 成 10 了， 而 6b_size 却 只 有 7。 
在 Python 中，1ist 还 有 另 一 个 被 广泛 使 用 的 插入 操作 append。 这 个 操作 与 上 面 所 描 


述 的 插入 操作 非常 类 似 ; 






只 是 需要 注意 的 是 ， 在 进行 appena 动作 的 时 候 ， 添 加 的 元 素 是 添加 在 第 ob_size+1 
个 位 置 上 的 ( 即 1ist [ob_size] 处 ), 而 不 是 第 allocatea 个 位 置 上 。 图 和 5 展示 了 appengd 
元 素 101 之 后 的 PyListOobject 对 象 : 
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在 appl 中 调用 1ist_resize 时 ， 由 于 newsize (8) 在 5 和 10 之 间 ， 所 以 不 需要 再 
分 配 内 存 空间 。 直 接 将 101 放置 在 第 8 个 位 置 上 即 可 。 


4.2.4 删除 元 素 


对 于 一 个 容器 而 言 ， 除 了 创建、 设置 、 插 入 这 些 拘 作 ， 至 少 还 应 该 有 删除 操作 才 算 完 
整 。 倘若 不 然 ， 只 有 插入 元 素 的 话 ， 再 大 的 容器 迟早 有 一 天 会 被 撑 爆 的 ，PyListobject 
自然 也 不 会 例外 。 图 4-6 展示 了 一 个 使 用 pybistobject 中 删除 元 素 功 能 的 例子 。 





图 4-6 删除 元 素 的 例子 
当 Python 执行 1st .xemove (3) 时 ，PyListobject 中 的 listremove 操作 会 被 激活 : 
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Python 会 对 整个 列表 进行 遍历 ,在 遍历 pysistobject 中 所 有 无 素 的 过 程 中 ， 将 待 删 
除 的 元 素 与 PyListobject 中 的 每 个 元 素 一 一 进行 比较 ， 比 较 操作 是 通过 PyObject_ 
RichCompareBool 完成 的 ， 如 果 其 返回 值 大 于 0， 则 表示 列表 中 的 某 个 元 素 与 待 删除 的 元 
素 匹 配 。 一 且 在 列表 中 发 现 匹 配 的 元 素 ， Python 将 立即 调用 1ist_ass_slice 删除 该 元 素 。 
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> alilow:ihigh] = Vv if Vv != NULE. 
> del alilow:ihigh] if v == NUDEL. 


可 见 ， 这 个 家 伙 实 际 上 有 着 replace 和 remove 两 种 语义 ， 决 定 使 用 哪 种 语义 的 ， 正 是 
最 后 一 个 参数 v。 图 4-7 展示 了 当 Python 内 部 调用 这 个 函数 时 ， 会 发 生 的 动作 。 





图 4-7 list_ass_slice 的 不 同 语义 


当 执行 1[1:3] = [ar,， pb"] 时 ，Python 内 部 就 调用 了 1ist_ass_siice， 而 其 参数 
为 ilow=1, ihigh=3, V={'a', ‘b’]。 


而 当 1ist_ass_slice 的 参数 v 为 NULL 时 , Python 就 会 将 默认 的 replace 语义 替换 为 
remove 语义 ， 删 除 [ilow, ihigh] 范 围 内 的 元 素 ， 这 正 是 listremove 期 望 的 动作 。 同 样 ， 在 图 
4-7 中 ， 我 们 通过 111:2] = [1] 的 执行 看 到 了 这 一 点 ， 对 于 这 个 表达 式 语 名 ，Python 内 部 
调用 的 正 是 1ist_ass_slicel(l, 1, 2, NULL)。 


对 于 list_ass_slice 的 具体 实现 ， 这 里 就 不 过 多 地 深入 了 ， 有 兴趣 的 读者 可 以 参考 
Python 的 源 代码 。 在 list_ass_slice 中 , 当 进 行 元 素 删除 动作 时 , 实际 上 是 通过 memmove 
简单 地 搬移 内 存 来 实现 的 。 这 就 意味 着 ， 当 调用 list 的 remove 操作 删除 1ist 中 的 元 素 
时 ， 一 定 会 触发 内 存 搬移 的 动作 ， 这 一 点 跟 C++ 中 的 vector 是 完全 一 致 的 ， 而 与 C++ 中 
的 1ist 则 完全 不 同 。 

4-8 展示 了 删除 元 素 100 的 过 程 。 











图 4-8 在 PyListObject 中 删除 100 
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4.3 ”PyListObject 对 象 缓冲 池 


还 记得 吗 ， 刚 才 我 们 按 下 了 一 个 有 趣 的 话题 ， 没 错 ， 就 是 那个 缓冲 池 ，free_lists。 
现在 ， 是 揭 开 它 神秘 面纱 的 时 候 了 。 我 们 想 知道 的 问题 是 ，free_iists 中 所 缓冲 的 
PYListObjecc 对 象 是 从 哪里 获得 的 ， 是 在 何 时 创建 的 ? 答案 就 是 在 一 个 PyListObject 
被 销毁 的 过 程 中 ( 见 代 码 清单 4-4)。 


代码 清单 4-4 











外 


在 创建 一 个 新 的 1ist 时 , 我 们 看 到 创建 过 程 实际 分 离 为 两 步 , 首先 创建 PyLigtobject 
对 象 ， 然 后 创建 pybistobject 对 象 所 维护 的 元 素 列 表 。 与 之 对 应 ， 在 销毁 一 个 1ist 时 ， 
销毁 的 过 程 也 是 分 离 的 , 首先 Python 会 在 代码 清单 4-4 的 [处 销毁 ByListobjeet 对 象 所 
维护 的 元 素 列 表 ， 然 后 在 代码 清单 4-4 的 [2] 处 释放 PyListobject 对 象 自身 。 


代码 清单 4-4 的 [1] 处 所 做 的 工作 无 非 是 为 1ist 中 的 每 一 个 元 素 改变 其 引用 计数 ， 然 
后 将 内 存 释 放 ， 并 没有 什么 特别 之 处 。 而 到 了 代码 清单 4-4 的 四 处 ， 有 趣 的 东西 出 现 了 ， 
PybistOQbject 对 每 缓冲 池 现 身 he 

在 删除 PyListobject 对 象 自身 时 ，Python 会 检查 我 们 开始 提 到 的 那个 缓冲 池 ， 
free_lists， 查看 其 中 缓存 的 pyListobject 的 数量 是 否 已 经 满 了 。 如 果 没 有 ， 就 将 该 竺 
删除 的 PyListobject 对 象 放 到 缓冲 池 中 ， 以 备 后 用 。 

现在 一 切 真 相 大 白 了 ， 那 个 在 Python 启动 时 空荡荡 的 缓冲 池 原来 都 是 被 本 应 该 死去 
的 PyListobject 对 象 给 填充 了 ， 在 以 后 创建 新 的 PyListopject 的 时 候 ， Python 会 首 
先 唤醒 这 些 已 经 “死去 ”的 pyListobject， 叉 给 它们 一 个 重新 做 “人 ”的 机 会 @。 但 是 ， 
需要 指出 , 这 里 缓冲 的 仅仅 是 PyListobject 对 象 ,而 没有 这 个 对 象 曾经 拥有 的 By0bject* 
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元 素 列表 ， 因 为 这 些 pyobject* 指 针 的 引用 计数 已 经 减少 了 ， 这 些 指针 所 指 的 对 象 都 要 各 
奔 前 程 ， 或 生存 ， 或 毁灭 ， 不 再 被 PyListobject 所 给 予 的 那个 引用 计数 所 束缚 。 
Pybistobject 如 果 继 续 维护 一 个 指向 这 些 对 象 指针 的 列表 , 就 可 能 产生 破 灾 指针 的 问题 。 
所 以 ，Pyobject* 列 表 所 占用 的 空间 必须 归还 给 系统 。 


当然 ， 我 们 实际 上 可 以 将 pyListobject 对 象 所 维护 的 元 素 列表 保留 ， 即 在 代码 清单 
4-4 的 [1 处 仅仅 调整 引用 计数 ,并 将 列表 中 的 各 个 元 素 都 设置 为 NULL， 却 关 不 释放 元 素 列 
表 的 内 存 空间 。 但 是 如 此 一 来 ， 这 些 已 经 被 释放 的 内 存 并 不 会 归还 给 系统 堆 ， 这 就 意味 着 
除了 PyListobject 对 象 自身 ， 没 有 人 能 再 使 用 这 些 内 存 。 虽 然 保 留 元 素 列表 可 以 在 创建 
list 时 免 去 创建 元 素 列表 的 开销 ， 但 是 Python 为 了 避免 过 多 消耗 系统 内 存 ， 采 取 了 将 元 
素 列 表 的 内 存 归 还 给 系统 玲 的 做 法 ， 以 时 间 换 取 空 间 。 

图 4-9 显示 了 如 果 删 除 我 们 在 前 面 创建 的 那个 1ist，PyListobject 对 象 缓冲 池 的 示 
意图 。 








free lists 
图 4-9 PyListObject 对 象 缓冲 池 
在 Python 下 一 次 创建 新 的 1ist 时 ， 这 个 BytistObiject 对 和 象 将 重新 被 唤醒 ， 重 新 分 
配 eyobjecc* 匹 素 列 表 占 用 的 内 存 ， 重 新 拥抱 新 的 对 象 。 放 眼 四周 ， 曾 经 所 拥有 过 的 那些 
对 象 ， 有 的 已 经 容颜 苍老 ， 有 的 已 经 烟消云散 ， 身 为 它们 曾经 的 头 儿 ， 是 否 有 一 种 “ 物 是 
人 非 事 事 休 ， 欲 语 泪 先 流 ”的 感慨 呢 ? 四 


4.4 Hack PyListObject 
MU a 


普 先 我 们 来 观察 在 PyListObijsct 中 维护 的 元 素数 量变 化 时 ， PyDistobject 中 
ob_size 和 allocated 两 个 变量 的 变化 情况 , 从 中 鸯 见 pyListobject 对 内 存 的 使 用 和 管 
理 。 


在 PyListobject 的 输出 操作 11st_print 中 ,我 们 添加 了 大 下 代码 ， 以 观察 PyLisc- 
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图 4-10 观察 PyListObject 中 的 内 存 管理 


首先 创建 一 个 包含 一 个 元 素 的 1ist， 这 时 ob_size 和 allocated 都 是 1。 这 时 
list 中 拥有 的 所 有 内 存 空 间 都 已 被 使 用 完 , 所 以 下 次 插入 元 素 时 就 一 定 会 调整 list 的 内 存 
空间 了 。 


随后 向 1ist 末尾 追加 元 素 2， 可 以 看 到 ， 调 整 内 存 空 间 的 动作 发 生 了 。allocated 
变 成 了 5， 而 ob_size 则 变 成 了 2， 这 里 明确 地 显示 出 了 pyListobject 所 采用 的 与 C++ 
中 vector 一 样 的 内 存 缓冲 池 策 略 。 


如 果 继 续 向 1ist 末尾 追加 元 素 3、4、5， 在 追加 了 元 素 5 之 后 ，1ist 所 拥有 的 内 存 
空间 又 被 使 用 完了 ， 下 一 次 再 追加 或 插入 元 素 时 ， 内 存 空间 调整 的 动作 又 会 再 一 次 发 生 。 


如 果 在 追加 元 素 3 之 后 就 删除 元 素 2, 可 以 看 到 , ob_size 发 生 了 变化 , 而 allocated 
则 不 发 生变 化 ， 它 始终 如 一 地 维护 着 当前 1ist 所 拥有 的 全 部 内 存 数量 。 


接 下 来 我 们 观察 一 下 pyListobject 对 象 的 创建 和 删除 对 于 Python 维护 的 pyList- 
object 对 象 缓 神 池 的 影响 。 


li8t1 = {4] MP 
print Hist1 Inum_free_lists=3 
et2 =7 {4 
print ListL 【于 um free 1ists=2 
List3 = tT , 
Gel list2 
print Tist1 
del 1ist3 
prinE iisti 





图 4-11 观察 PyListObject 对 象 缓冲 池 的 使 用 
这 次 为 了 消除 Python 交互 环境 执行 时 对 PyListobject 对 象 缓冲 池 的 影响 ,我 们 通过 
执行 py 脚本 文件 来 观察 。 从 图 4-11 中 可 以 看 到 ， 当 创建 新 的 pgyEistobject 对 象 时 ， 如 
果 组 冲 池 中 有 可 用 的 PyListobiject 对 象 ， 则 会 使 用 缓冲 池 中 的 对 象 ; 而 在 销 筑 一 个 
PyListobject 对 象 时 ， 人 确实 将 这 个 对 和 象 放 到 了 缓冲 池 中 。 
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元 素 和 元 素 之 间 通 常 可 能 存在 某 种 联系 , 这 种 神秘 的 联系 使 本 来 毫 不 相关 的 两 个 元 素 
被 捆绑 在 一 起 ， 而 别 的 元 素 则 被 排斥 在 外 。 比 如 对 于 “2 倍 ” 这 样 一 种 联系 ，6 和 3 就 是 
这 样 的 两 个 元 素 ， 而 4 和 2 同样 也 是 被 这 种 联系 关联 起 来 的 一 对 元 素 。 

为 了 刻画 某 种 对 应 关系 ， 现代 的 编程 语言 通常 都 在 语言 级 或 标准 库 中 提供 某 种 关联 式 
的 容器 。 关 联 式 的 容器 中 存储 着 一 对 对 符合 该 容器 所 代表 的 关联 规则 的 元 素 对 。 关联 式 容 
带 中 的 元 素 对 通常 是 以 ( 键 (key) 或 值 (value)) 这 样 的 形式 存在 。 比 如 在 一 个 表示 “2 
倍 ” 关系 的 关联 容器 中 , (3，6)，(2, 4) 就 是 容器 中 的 两 个 元素 对 。 其 中 3 就 是 一 个 “ 键 ”， 
当 寻 找到 3 之 后 ， 我 们 就 能 很 轻松 地 获得 与 3 有 着 “2 倍 ”联系 的 另 一 元 素 。 


关联 容器 的 设计 总 会 极 大 地 关注 键 的 搜索 效率 ， 因 为 通常 我 们 使 用 关联 容器 ， 都 是 希 
望 根据 我 们 手中 已 有 的 某 个 元 素来 快速 获得 与 之 有 某 种 联系 的 另 一 元 素 。 一 般 而 言 ， 关 联 
容 吕 的 实现 都 会 基于 设计 良好 的 数据 结构 。 比 如 C++ 的 STL 中 的 map 就 是 一 种 关联 容器 ， 
map 的 实现 基于 RB-tree ( 红 标 树 )。RB-tree 是 一 种 平衡 二 元 树 , 能 够 提供 良好 的 搜索 效率 ， 
理论 上 ， 其 搜索 的 时 间 复 杂 度 为 O (logsN)。 


Python 中 同样 提供 关联 式 容器 ， 即 pyDictobject 对 象 (也 称 dict ) 。 与 map 不 同 
的 是 ，PyDictobject 对 搜索 的 效率 要 求 极其 苛刻 ， 这 也 省 因为 egypiarobjact 对 象 在 
Python 本 和 喘 的 实现 中 被 大 量 地 采用 。 比 如 Python 会 通过 pypictobject 来 建立 执行 Python 
字 节 码 的 运行 环境 ， 其 中 会 存放 变量 名 和 变量 值 的 元 素 对 ， 通 过 查找 变量 名 获得 变 基 什 ， 
因此 ，pyDictobject 没有 如 map 一 样 采用 平衡 二 元 树 ， 而 是 采用 了 散 列 表 (hash table)， 
因为 理论 上 ， 在 最 优 情况 下 ， 散 列表 能 提供 O(1) 复杂 度 的 搜索 效率 。 
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散 列 表 概述 





散 列表 的 基本 思想 ， 是 通过 一 定 的 函数 将 需 搜索 的 键 值 映 射 为 一 个 整数 ， 将 这 个 整数 
视 为 索引 值 去 访问 某 片 连续 的 内 存 区 域 。 看 一 个 简单 的 例子 ， 如 图 5-1 所 示 ， 有 10 个 整 


数 1， Da 05 其 依次 对 应 a， b, *°*, je 申请 一 块 连续 内 存 ， 并 依次 存储 ay, 所 3 j: 
EO 
#1 #2 #10 


图 5-1 散 列 表 的 例子 


当 需 要 寻找 与 2 对 应 的 字母 时 ， 只 需 通 过 一 定 的 函数 将 其 映射 为 整数 ， 显 然 ，2 本 身 
就 是 一 个 整数 ， 我 们 可 以 使 用 这 样 的 映射 函数 En) = ay 那么 2 的 映射 值 就 是 2 本 身 。 
然后 访问 这 片 连续 内 存 的 第 2 个 位 置 ， 就 能 得 到 与 2 对 应 的 字母 b。 


对 散 列 表 这 种 数据 结构 的 采用 是 以 加 速 键 的 搜索 过 程 为 终极 目标 的 ， 于 是 ， 将 元 素 映 
射 为 整数 的 过 程 对 于 Python 中 aics 的 实现 就 显得 尤为 关键 。 用 于 映射 的 函数 称 为 散 列 函 
数 《hash function)， 而 映射 后 的 值 称 为 元 素 的 散 列 值 (hash value)。 在 散 列表 的 实现 中 ， 
所 选择 的 散 列 函数 的 优 劣 将 直接 决定 所 实现 的 散 列 表 的 搜索 效率 的 高 低 。 


在 使 用 散 列 表 的 过 程 中 ， 不 同 的 对 象 经 过 散 列 函数 的 作用 ， 可 能 被 映射 为 相同 的 艇 列 
值 。 而且 随 着 需要 存储 的 数据 的 增多 ， 这 样 的 冲突 就 会 发 生得 越 来 越 频繁 。 散 列 冲突 是 散 
列 技术 与 生 俱 来 的 问题 。 这 里 需要 提 到 一 个 散 列表 中 与 散 列 冲突 相关 的 概念 一 一 装载 率 。 
装载 率 是 散 列 表 中 已 使 用 室 间 和 总 室 间 的 比值 举例 来 说 ， 如 果 散 列表 一 共 可 以 容纳 10 
个 元 素 ， 而 当前 已 经 装 入 了 6 个 元 素 ， 那 么 装载 率 就 是 6/10。 研究 表明 ， 当 散 列 表 的 装载 
率 大 于 2/3 时 ， 散 列 冲 突 发 生 的 概率 就 会 大 大 增加 。 


有 很 多 方法 可 以 用 来 解决 产生 的 散 列 冲突 问题 ,比如 开 链 法 , 这 是 SGISTL 中 的 hash 
table 所 采用 的 方法 ， 而 Python 中 所 采用 的 是 另 一 种 方法 ， 即 开放 定 址 法 。 


当 产生 散 列 冲突 时 ，Python 会 通过 一 个 二 次 探测 函数 E， 计 算 下 一 个 候选 位 置 aadr， 
如 果 位 置 aadar 可 用 , 则 可 将 待 插入 无 素 放 到 位 置 aadar: 如 果 位 置 aadar 不 可 用 , 则 Python 
会 再 次 使 用 探测 函数 £， 获 得 下 一 个 候选 位 置 ， 如 此 不 断 探测 ， 总 会 找到 一 个 可 用 的 位 轿 。 


这 样 ， 通 过 多 次 使 用 探测 函数 £， 从 一 个 位 置 出 发 就 可 依次 到 达 多 个 位 置 ， 我 们 认为 
这 些 位 置 形成 了 一 个 “冲突 探测 链 ”( 或 简称 探测 序列 )。 当 需要 删除 某 条 探测 链 上 的 某 个 
元 素 时 ， 问 题 就 产生 了 。 假 如 这 条 链 的 首 元 素 位 置 为 a， 尾 元 素 的 位 置 为 <， 现 在 需要 删 
除 中 间 的 某 个 位 置 b 上 的 元 素 。 如 果 直 接 将 位 置 b 上 的 元 素 删除 , 则 会 导致 探测 链 的 断裂， 
造成 严重 的 后 果 。 想 象 一 下 ， 在 下 一 次 搜索 位 置 c 的 元 素 时 ， 会 从 位 置 a 开始 ， 通 过 探测 
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函数 ， 沿 着 探测 链 ， 一 步 一 步 向 位 团 上 靠近 ， 但 是 在 到 达 位 置 b 时， 发 现 这 个 位 置 上 的 元 
素 不 属于 这 个 探测 链 ， 因 此 探测 函数 会 以 为 探测 链 在 这 里 结束 ， 导 致 不 能 到 达 位 置 c， 自 
然 也 就 不 能 搜索 到 位 置 c 上 的 元 素 ， 所 以 结果 是 搜索 失败 。 而 实际 上 ， 待 搜索 的 元 素 确实 
存在 于 散 列 表 中 。 

所 以 , 在 采用 开放 定 址 的 神 突 解决 策略 的 散 列 表 中 ， 删 除 某 条 探测 链 上 的 元 素 时 不 能 
进行 真正 的 删除 ， 而 是 进行 一 种 “ 伪 删 除 ”操作 ， 必 须要 让 该 元 素 还 存在 于 探测 链 上 ， 担 
当 承 前 启 后 的 重任 。 对 于 这 种 伪 删 除 技术 , 我 们 在 分 析 Python 中 的 PyDictobject 对 象 时 
会 详细 讨论 。 


5.2 PyDictObject 


5.2.1 关联 容器 的 entry 


在 本 章 此 后 的 描述 中 ， 我 们 将 把 关联 容器 中 的 一 个 ( 键 ， 值 ) 元 素 对 称 为 一 个 entry 
或 slot。 在 yg 中 ， 人 py 的 定义 放下 





可 以 看 到 ， 在 pypictobject 中 其 实 存放 的 都 是 pyopject*， 这 也 是 Python 中 的 aict 
什么 都 能 装 得 下 的 原因 , 因为 在 Python 中 ,无 论 什么 东西 归根 结 底 都 是 一 个 pyobject 对 象 。 

在 bypiccEntry 中 ,me_hash 域 存储 的 是 me_key 的 散 列 值 ， 利 用 一 个 域 来 记录 这 个 
散 列 值 可 以 避免 每 次 查询 的 时 候 都 要 重新 计算 一 遍 散 列 值 。 

在 Python 中 ， 在 一 个 pypictGbjsct 对 象 生存 变化 的 过 程 中 ， 其 中 的 entry 会 在 不 
同 的 状态 间 转 换 。PyDictobject 中 entry 更 区 攻 3 种 状态 间 转 换 ，Unused 态 、Active 态 
和 Dummy 态 。 


> 当 一 个 entry 的 me_key 和 me_value 都 是 NULL 时 ，sntry 处 于 Unused 态 。Unused 
态 表 明 目 前 该 entry 中 并 没有 存储 (key，value) 对 ， 而 且 在 此 之 前 ， 也 没有 存储 过 
它们 。 每 一 个 entry 在 初始 化 的 时 候 都 会 处 于 这 种 状态 ， 而 且 只 有 在 Unused 态 下 ， 
entry 的 me_key 域 才 会 为 NGEL。 

> 当 entry 中 存储 了 一 个 (key，value) 对 时 ，entry 便 转换 到 了 Active 态 。 在 Active 
态 下 ，me_key 和 me_value 都 不 能 为 NULL。 更 进一步 地 说 ，me_key 不 能 是 dummy 
对 象 。 
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> 当 entry 中 存储 的 (key，value) 对 被 副 除 后 ，entry 的 状态 不 能 直接 从 Active 态 转 
为 Unused 态 ， 和 否则 会 如 我 们 前 面 提 到 的 ， 导致 冲突 探测 链 的 中 断 。 相 反 ，entry 中 
的 me_key 将 指向 dummy 对 象 (这 个 dummy 对 象 究竟 为 何方 神圣 ， 后 面 我 们 会 详细 考 
察 )，entry 进入 Dummy 态 ， 这 就 是 我 们 前 面 提 到 的 “ 伪 删 除 ” 技 术 。 当 Python 洛 
着 某 条 冲突 链 搜索 时 ， 如 果 发 现 一 个 entxry 处 于 Dummy 态 ， 说 明 目 前 该 entry 虽 
然 是 无 效 的 ， 但 是 其 后 的 entry 可 能 是 有 效 的 ， 是 应 该 被 搜索 的 。 这 样 ， 就 保证 了 
冲突 探测 链 的 连续 性 。 


图 5-2 展示 了 entry 的 3 种 可 能 状态 ， 以 及 它们 之 间 的 转换 关系 ， 





图 5-2 PyDictObject 中 entry 的 状态 转换 图 
5.2.2 关联 容器 的 实现 


在 Python 中 ， 关联 容器 是 通过 PyDictobject 对 象 来 实现 的 。 而 一 个 PyDictObject 
对 象 实际 上 是 一 大 堆 entry 的 集合 ， 总 控 这 些 集合 的 结构 如 下 。 








全 > 





从 注释 中 可 以 清楚 地 看 到 ，ma_E111 域 中 维护 着 从 PyDictObject 对 象 创建 开始 直到 
现在 ， 曾 经 及 正 处 于 Active 态 的 entry 个 数 ， 而 ma_used 则 维护 着 当前 正 处 于 Active 态 
的 entry 的 数量 。 
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在 pyDictobject 定义 的 最 后 ， 有 一 个 名 为 ma_smalitable 的 pyDictEntry 数组 ， 
这 个 数组 意味 着 当 创 建 一 个 pybictobjec 对 象 时 ， 至 少 有 PyDict_MINSIZB 个 entry 被 
同时 创建 。 在 dictobject.h 中 ， 这 个 值 被 设 定 为 8， 这 个 值 被 认为 是 通过 大 量 的 实验 得 出 的 
最 佳 值 。 它 既 不 会 太 浪 费 内 存 空 间 ， 叉 能 很 好 地 满足 Python 内 部 大 量 使 用 PyDictObject 
的 环境 的 需求 ， 不 需要 在 使 用 的 过 程 中 再 次 调用 malloc 申请 内 存 空间 。 当 然 ， 我 们 可 以 
自己 改变 这 个 值 来 调节 Python 的 运行 效率 。 

pyDictObject 中 的 ma_table 域 是 关联 对 象 的 关键 所 在 ， 这 个 类 型 为 pybictEntry* 
的 变量 将 指向 一 片 作 为 pyDictEntry 集合 的 内 存 的 开始 位 置 。 当 一 个 pyDictobject 对 象 
是 一 个 比较 小 的 aict 时 ， 即 entry 数量 少 于 8 个 ，ma_table 城 将 指向 ma_smaliltable 
这 与 生 俱 来 的 8 个 entry 的 起 始 地 址 。 而 当 ypDictobject 中 的 entry 数量 超过 8 个 时 ， 
Python 认为 这 家 伙 是 一 个 大 dict 了 ， 将 会 申请 额外 的 内 存 空间 ， 并 将 ma_table 指向 这 
块 空间 。 这 样 ， 无 论 何 时 ，ma_table 域 都 不 会 为 NUL5， 这 带 来 了 一 个 好 处 ， 不 用 在 运行 
时 一 次 又 一 次 地 检查 ma_table 的 有 效 性 ， 因 为 ma_table 总 是 有 效 的 。 


图 5-3 分 别 显示 了 Python 中 的 “大 ” “小 ”两 种 Gict: 


PyObject HEAD 






dict 中 元 案 个 数 小 于 8 dict 中 元 素 个 数 大 于 8 
图 5-3 PyDictObject 中 ma_table 的 两 种 可 能 状态 
最 后 ，PyDictobject 中 的 ma_mask 实际 上 记录 了 一 个 pyDictobject 对 象 中 所 拥有 
的 entry 的 数量 。 至 于 这 家 伙 为 什么 不 叫 ma_size 这 么 好 昕 的 名 字 ， 人 偏偏 要 特 立 独行 ， 
取 一 个 ma_masx 这 样 莫名 其 妙 的 名 字 ， 此 乃 后 话 ， 这 里 先 按 下 不 表 。 同 样 被 按 下 不 表 的 还 
有 ma_lookup@。 
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5.3 ”PyDictObject 的 创建 和 维护 
5.3.1 ”PyDictObject 对 象 创建 


Python 内 部 通过 pyDict_New 来 创建 一 个 新 的 aict 对 象 〔 见 代码 清单 5-1)。 
代码 清单 5-1 








A 





值得 注意 的 是 ， 第 一 次 调用 pypict_New 时 ， 在 代码 清单 5-1 的 [1] 处 会 创建 前 面 提 到 
的 那个 summy 对 象 。 原 来 dummy 竞 然 是 一 个 pystringobjact 对 象 ， 实 际 上 ， 它 仅仅 是 
用 来 作为 一 种 指示 标志 ， 表 明 该 entry 曾 被 使 用 过 ， 且 探测 序列 下 一 个 位 置 的 entry 有 
可 能 是 有 效 的 ， 从 而 防止 探测 序列 中 断 。 

从 num_free_daicrs 可 以 看 出 ，Python 中 aict 的 实现 同样 使 用 了 缓冲 池 。 我 们 把 代 


5.3，PyDictObiject 的 创建 和 维护 一 83 


码 清单 5-1 的 书 ] 处 对 缓冲 池 的 使 用 的 讨论 放 到 后 面 ， 

如 果 PyDictobject 对 象 的 缓冲 池 不 可 用 ， 那 么 Python 将 首先 从 系统 扒 中 为 新 的 
PyDictobject 对 象 申请 合适 的 内 存 空间 ,然后 会 通过 两 个 宏 完成 对 新 生 的 pyDictobject 
对 象 的 初始 化 工作 ; 

e ENPpTY_TOLMINSTZE: 将 ma_smalltable 清 零 ， 同 时 设置 ma_size 和 ma_filil， 当 

然 ， 在 一 个 pypiccobjec 对 象 刚 被 创建 的 时 候 ， 这 两 个 变量 都 应 该 是 0。 

e INIT_NONZERO_DICT_SLOT: 将 ma_table 指向 ma_smalitable， 并 设置 ma_mask 

海 乱 

可 以 看 到 ，ma_mask 的 初始 值 为 pyDict_MINSIZE-1， 确 实 与 一 个 pyDictobject 对 
象 中 entry 的 数量 有 关 。 在 创建 过 程 的 最 后 ， 将 lookdict_string 贼 给 了 ma_lookups 
正 是 这 个 ma_lookup 指定 了 pyDictObject 在 entry 集合 中 搜索 某 一 特定 entry 时 需要 
进行 的 动作 ， 在 ma_lookup 中 ， 包含 了 散 列 函数 和 发 生 冲 突 时 二 次 探测 函数 的 具体 实现 ， 
众所周知 ， 它 是 pyDictobject 的 搜索 策略 。 


5.3.2 ”PyDictObject 中 的 元 素 搜索 


Python 为 pypictobject 对 象 提供 了 两 种 搜索 策略 ，lookdict 和 lookdict_string。 实 际 
上 ， 这 两 种 策略 使 用 的 是 相同 的 算法 ，lookdict_string 只 是 lookdict 的 一 种 针对 
Pystringobject 对 象 的 特殊 形式 。 以 Pystring9bject 对 象 作为 PyDictobject 对 象 中 
entry 的 键 在 Python 中 是 如 此 的 广泛 和 重要 ， 所 以 lookdict_string 也 就 成 为 了 pyDict- 
object 创建 时 所 默认 采用 的 搜索 策略 。 


既然 lookdict_string 是 lookdict 针对 Pystringobject 对 象 的 特殊 形式 ， 那 么 我 们 首 
先 就 来 剖析 一 下 dict 中 的 通用 搜索 策略 lookdict， 而 不 是 考虑 Python 的 败 认 搜索 策略 ， 
一 旦 清晰 地 了 解 了 通用 搜索 策略 ，lookdict_string 也 就 一 目 了 然 了 《〈 见 代 码 清单 5-2)。 
代码 清单 5-2 
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这 里 列 出 的 代码 对 Python 的 源码 进行 了 一 些 改动 ， 目 的 是 为 了 简明 地 展示 搜索 的 过 

PyDictobject 中 维护 的 entry 的 数量 是 有 限 的 ,比如 100 个 或 1000 个 。 而 传 入 lookdict 
中 的 key 的 hash 值 却 不 一 定 会 在 这 个 范围 内 ， 所 以 这 就 要 求 lookdict 将 hash 值 政 射 到 某 
个 entry 上 去 。lookdict 采取 的 策略 非常 简单 , 直接 将 hash 值 与 sntry 的 数量 做 一 个 与 操 
作 , 结果 自然 落 在 entry 的 数量 之 下 ,代码 清单 5-2 的 [1] 处 实现 了 这 个 过 程 ,由 于 ma_mask 
会 被 用 来 进行 大 量 的 与 操作 ， 所 以 这 个 与 eritry 数量 相关 的 变量 被 命名 为 ma_mask， 而 不 
是 mAaA_ SiZ%e。 

这 里 需要 说 明 一 下 ， 无 论 是 lookdict_string 还 是 lookdict， 永 远 都 不 会 返回 NULL， 如 
果 在 sypictobject 中 搜索 不 到 待 查找 的 key， 同 样 会 返回 一 个 entry， 这 个 entry 的 

在 搜索 的 过 程 中 ， 代 码 清单 5-2 的 [3] 处 所 操纵 的 Erseslot 是 一 个 重要 的 变量 ， 如 果 
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在 探测 链 中 的 某 个 位 置 上 ，entry 处 于 Dummy 态 ， 那 么 如 果 在 这 个 序列 中 搜索 不 成 功 ， 
就 会 返回 这 个 处 于 Dummy 态 的 entry。 我 们 知道 ， 处 于 Dummy 态 的 entry 其 me_value 
是 为 NULL 的 ， 所 以 这 个 返回 结果 指示 了 搜索 失败 ;， 同 时 ， 返 回 的 entxry 也 是 一 个 可 以 立 
即 被 使 用 的 entry， 因 为 Dummy 态 的 entry 并 没有 维护 一 个 有 效 的 (key，value》 对 。 
这 个 fzeeslec 正 是 用 来 指向 探测 序列 中 第 一 个 处 于 Dummy 态 的 sacry， 如 果 搜 索 失 败 ， 
Freeslot 就 会 挺身 而 出 ， 提 供 一 个 能 指示 失败 并 立即 可 用 的 entry。 当 然 ， 如 果 探 测序 
列 中 并 没有 Dummy 态 entry， 搜 索 失 败 时 ， 一 定 是 在 一 个 处 于 Unused 态 的 entry 上 结 
东 搜 索 过 程 的 ， 这 时 会 返回 这 个 处 于 Unused 访 的 entry， 同 样 是 一 个 能 指示 失败 且 立 即 
可 用 的 entry。 


在 Python 对 aict 的 搜索 中 ， 更 进一步 的 ， 在 dict 的 实现 中 ， 有 一 个 抽象 的 概念 ， 
虽然 我 们 至 今 没有 提 及 , 但 是 却 至 关 重 要 .。 我 们 说 在 aiet 中 的 搜索 过 程 是 要 在 aiet 的 所 
有 entry 中 寻找 一 个 这 样 的 entry， 其 key 与 待 搜索 的 key 相同 。 那 么 什么 是 相同 呢 ? 如 
何 定义 相同 ? 如 果 没 有 确定 这 个 概念 ， 那 么 搜索 就 无 从 谈 起 ，aict 也 就 无 从 谈 起 。 


在 Python 的 Gict 中 ,“ 相 同 ” 这 个 概念 实际 上 包含 两 层 含义 : 1. 引用 相同 : 2. 值 相 
同 。Python 中 的 siet 正 是 建立 在 这 两 层 含义 之 上 的 。 所 谓 引用 相同 ， 是 指 两 个 符号 引用 
的 是 内 存 中 的 同一 个 地 址 ， 这 一 点 的 检查 是 由 代码 清单 5-2 的 [2] 处 的 “ep->me_key == key” 
所 完成 的 ;而 所 谓 的 值 相同 ， 是 说 两 个 Pyobject* 指 针 实 际 上 指向 了 不 同 的 对 象 ， 即 内 存 
中 的 不 同位 置 ， 但 是 这 两 个 对 象 的 值 相 同 。 


举 一 个 简单 的 例子 ， 在 前 面 我 们 已 经 看 到 ， 在 整数 对 象 中 ， 小 悍 数 对 象 是 共享 的 ， 而 
大 整数 对 象 并 不 是 共享 的 ， 当 我 们 多 次 创建 相同 的 大 整数 对 象 时 ， 虽 然 其 值 相同 ， 然 而 
Python 创建 的 却 是 不 同 的 对 象 ， 考 虑 如 图 5-4 所 示 的 Python 代码 : 


>>> d= 三 {1) 

>>> L9876] = Python’ 
>>> print d[9876] 
Python 


>>> 


图 5-4 在 dict 中 搜索 整数 


这 里 出 现 了 两 个 整数 对 象 9876， 在 第 三 行 调用 print ar9876} 有 时 ，Python 会 首先 到 
d 中 搜索 键 为 9876 的 entry， 显 然 ， 在 lookdict 中 ， 代 码 清 单 .5-2 的 他] 处 的 引用 相同 检查 
是 不 会 成 功 的 , 但 是 如 果 这 就 意味 着 该 entry 不 存在 ， 那 简直 会 让 人 菲 丙 所 思 ， 因 为 在 图 
5-4 中 我 们 看 到 ， 这 个 entry 明明 是 存在 的 。 这 就 是 “ 值 相 同 ” 这 条 规则 存在 的 意义 。 


在 lookdict 中 ， 代 码 清单 5-2 的 [4] 处 完成 了 两 个 key 的 值 检查 。 值 检查 的 过 程 首先 会 
检查 两 个 对 象 的 hash 值 是 查 相 同 ， 如 果 不 相 同 ， 则 其 值 也 一 定 不 相同 ， 不 用 再 继续 下 去 
了 ; 而 如 果 hash 值 相等 ， 那 么 Python 将 通过 pyobject_RichcompareBocl 进行 比较 ， 注 
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本 它 





这 是 Python Ee 六 们 出 以 和 各 拍 间 比 软 汪 入 风光 型， 
当 (v op WW) 成 立时 ， 返 回 1; 当 (wv op w) 不 成 立时 ， 返 回 0， 如果 在 比较 中 发 生 错误 ， 则 
返回 -1。 在 代码 清单 5-2 的 [4] 处 ，lookdict 指定 了 py_BQ， 这 将 指示 Pyobject_Richcom- 
DareBOcL 进行 相等 比较 操作 。 


下 面 我 们 来 总 结 一 下 lookdict 中 进行 第 一 次 检查 时 所 进行 的 主要 动作 ,如 代码 清单 5-2 
中 的 [ 雪 、[ 习 、[3]、[ 和 所 示 。 : 
[1] 根据 hash 值 获得 entry 的 索引 ， 这 是 冲突 探测 甸 上 第 一 个 entry 的 索引 。 
[21 在 两 种 情况 下 ， 搜 索 结束 : 

> entry 处 于 Unused 态 ， 表 明 冲突 探测 链 搜 索 完成 ， 搜 索 失 败 ; 

> ep->me_key == key， 表 明 entry 的 key 与 待 搜索 的 key 匹配 ， 搜索 成 功 。 
[3] 车 当前 entry 处 于 Dummy 态 ， 设 置 freeslot。 
[4] 检查 Active 态 entry 中 的 key 与 待 查找 的 key 是 否 “ 值 相同 ” 车 成 立 ， 搜 索 成 功 。 

在 以 上 的 剖析 中 ， 我 们 考察 的 是 根据 hash 值 获得 的 冲突 探测 链 上 第 一 个 entry 与 待 
查找 的 元 素 的 比较 。 实 际 上 ， 由 于 entry 对 应 于 某 一 个 散 列 值 ， 几 乎 都 有 一 个 冲突 探测 链 
与 之 对 应 ， 所 以 我 们 现在 只 是 考察 了 所 有 候选 entry 中 的 第 一 个 entry， 万 里 长 征 仅仅 迈 
出 了 第 一 步 。 

如 果 冲 突 探测 链 上 第 一 个 entry 的 key 与 待 查找 的 key 不 匹配 ,那么 很 自然 地 ,lookdict 
会 沿 着 探测 链 , 顺 葬 摸 瓜 , 依次 比较 探测 链 上 的 entry 与 待 查找 的 key ( 见 代 码 清单 5-3)， 
代码 清单 5-3 
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其 实 对 探测 链 上 的 其 他 entxry 也 将 进行 同样 的 动作 ， 对 第 一 个 entry 和 其 他 entry 的 检 
查 本 质 上 是 一 样 的 ， 我 们 看 一 看 在 明 历 探测 链 时 发 生 lookdict 所 进行 的 操作 ， 如 代码 清音 
5-3 中 的 [5]、[6]、[7]、[8]、[9 所 示 。 
[5] 根据 Python 所 采用 的 探测 函数 ， 获 得 探测 链 中 的 下 一 个 待 检 查 的 entry。 
[6] 检查 到 一 个 Unused 态 entry， 表 明 搜 索 失 败 ， 这 时 有 两 种 结果 ; 

> ”如果 freeslot 不 为 空 ， 则 返回 freeslot 所 指 entry; 

> ”如果 freeslot 为 室 ， 则 返回 该 Unused 态 entry。 
[71 检查 entry 中 的 key 与 待 查 找 的 key 是 否 符合 “引用 相同 ”规则 。 
[8] 检查 entry 中 的 key 与 待 查找 的 key 是 否 符合 “ 值 相同 ”规则 。 
[9] 在 遍历 过 程 中 , 如 果 发 现 Dummy 态 entry, 且 freeslot 未 设置 , 则 设置 Ereeslot。 

需要 特别 注意 的 是 ， 如 果 搜 索 成 功 ， 那 么 ep 一 定 指向 一 个 有 效 的 entry， 直 接 返 回 
这 个 entry 即 可 ; 如 果 搜 索 失 败 ， 那 么 此 时 ep 指向 一 个 Unused 态 的 entry， 我 们 不 能 直 
接 返 回 该 entry, 因 为 有 可 能 在 遍历 的 过 程 中 ,已 经 发 现 了 一 个 Dummy 态 entry; 这 个 entry 
实际 是 一 个 空闲 的 entry? 可 以 被 Python 使 用 ， 所 以 在 代码 清单 5-3 的 [9] 处 ， 我 们 会 检查 
当前 freeslot 是 否 已 经 被 设置 ， 如 果 被 设置 ， 则 不 会 返回 Dummy 态 entry， 而 是 需要 
返回 freeslot 所 指向 的 entry。 

到 这 里 ， 我 们 已 经 清晰 地 了 解 了 PyDictobject 中 的 搜索 策略 ， 现 在 可 以 来 看 ~ 看 
Python 在 PyDict_New 中 为 pyDictobject 对 象 提供 的 扶 认 搜索 策略 了 ( 见 代码 清单 5-4)。 
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正如 我 们 前 面 所 说 ，lookdict_string 是 一 种 有 条 件 限制 的 搜索 策略 。lookdict_string 背 
后 有 一 个 假设 ， 即 待 搜索 的 key 是 一 个 pystringobject 对 象 。 共有 在 这 种 假设 成 立 的 情 
况 下 ，lookdict_string 才 会 被 使 用 。 需 要 特别 注意 的 是 ， 这 里 只 对 需要 搜索 的 key 进行 了 假 
设 , 没有 对 参与 搜索 的 aict 做 出 任何 的 假设 。 这 就 意味 着 ， 即 使 参与 搜索 的 dict 中 所 有 
entry 的 key 都 是 pyIntobject 对 象 ， 只 要 待 搜索 的 key 基 pystringobject 对 象 ， 都 会 
采用 lookdict_string 进行 搜索 ，PyString_Eq 将 保证 能 正确 处 理 非 Pystring0bject* 参 数 ， 


在 代码 清单 5-4 的 [0] 处 ，lookdict_string 首先 会 对 这 种 假设 进行 确定 ， 检 查 需 要 搜索 
的 key 是 宕 严格 对 应 一 个 PystringObject 对 象 ， 只 有 在 检查 通过 后 ， 才 会 进行 下 面 的 动 
作 ; 如 果 检 查 不 通过 ， 那 么 就 会 转向 pyDictobject 中 的 通用 搜索 策略 lookdict。 


可 以 很 清晰 地 看 到 , lookdict_string 实际 上 就 是 一 个 lookdict 对 于 pystringDict 对 象 
的 优化 版 本 。 我 们 在 本 章 展 示 的 lookdict 代码 经 过 了 删节 ， 实 际 上 ， 在 lookdict 中 有 许多 
捕捉 错误 并 人 处理 错 误 的 代码 ， 因 为 lookdict 面 对 的 是 Pyobject*， 所 以 会 出 现 很 多 意外 情 
况 。 而 在 lookdict_string 中 ， 完 全 没有 了 这 些 处 理 错误 的 代码 。 而 另 一 方面 ， 在 lookdict 
中 ， 使 用 的 是 非常 通用 的 ByobjecEt_RichCompareBool， 而 lookdict_string 使 用 的 是 
_pystring_Bq， 要 简单 很 多 ， 这 些 因 素 使 得 lookdict_string 的 搜索 效率 要 比 lookdict 高 很 
多 。 


那么 为 什么 仅仅 是 pystringobject 对 象 呢 ? Python 为 什么 需要 Pystringobject 对 
象 的 一 个 优化 版 本 ， 而 对 pyintobject 及 其 他 对 象 则 不 闻 不 癌 呢 ? 很 显然 ， 对 于 
pyIntobject 对 象 ， 我 们 同样 能 够 写 出 一 个 优化 的 lookdict_int。 

原因 在 于 ，Python 自身 大 量 使 用 了 pypictobject 对 象 ， 用 来 维护 一 个 名 字 空 间 中 变 
量 名 和 变量 值 之 间 的 对 应 关系 , 或 是 用 来 在 为 函数 传递 参数 时 维护 参数 名 与 参数 值 的 对 应 
关系 。 这 些 对 象 几 乎 都 是 用 PystringObject 对 象 作为 entry 中 的 key, 所 以 lookdict_string 
的 意义 就 显得 非常 重要 了 ， 它 对 Python 整体 的 运行 效率 都 有 着 重要 的 影响 。 


5.3.3 ”插入 与 删除 


pyDictobject 对 象 中 元 素 的 插入 动作 建立 在 搜索 的 基础 之 上 , 理解 了 PyDictobject 
对 象 中 的 搜索 策略 ， 对 于 插入 动作 也 就 很 容易 理解 了 〈 见 代码 清单 5-5)， 






代码 清单 5-5 
Loa to men NE hire 5 由 | 
- | eo Ty: pl i 
insertdict (register pet eropjeet: i p A es *key; long hash, ‘PyObject 
uh oy a | 


he] Wi sp rt 
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前 面 我 们 提 到 ， 搜 索 操作 在 成 功 时 ， 返回 相应 的 处 于 Active 态 的 entry， 而 在 搜索 失 
败 时 会 返回 两 种 不 同 的 结果 : 一 是 处 于 Unused 态 的 entry; 二 是 处 于 Dummy 态 的 entry。 
那么 插入 操作 对 应 不 同 的 entry， 所 需要 进行 的 动作 显然 也 是 不 一 样 的 。 对 于 Active 的 
sntry， 只 需要 简单 地 替换 me_value 值 就 可 以 了 ; 市 对 于 Unused 或 Dummy 的 entry， 
则 需要 完整 地 设置 me_key，ms_hash 和 me_value。 

在 insertdict 中 ， 正 是 根据 搜索 的 结果 采取 了 不 同 的 动作 , 如 代码 清单 5-5 中 的 [1]、 [21 

所 未 3 
[1] 搜索 成 功 ， 返 回 处 于 Active 的 entry， 直 接替 换 me_value; 
[ 习 ”搜索 失败 ， Unused 或 Dummy 的 entry, 完整 设置 me_key、 me_hash 和 wme_value。 


在 Python 中 ,对 PyDictobject 对 象 插入 或 设置 元 素 有 两 种 情况 , 如 下 面 的 代码 所 示 : 









— 4 
BX "本 
est ev 
1 | 让 于 
ee | 
1 P 
~ | 
We bb 
wp = ” 


第 二 行 Python 代码 是 在 pypictobject 对 象 中 没有 这 个 entry 的 情况 下 插入 元 素 ， 
第 三 行 是 在 pyDictobject 对 象 中 已 经 有 这 个 entxy 的 情况 下 重新 设置 元 素 。 可 以 看 到 ， 
insertdict 完全 可 以 适应 这 两 种 情况 ， 在 insertdict 中 ， 代 码 清单 5-5 的 由 处 理 第 二 行 
Python 代码 ， 代 码 清单 5-5 的 [1] 处 理 第 三 行 Python 代码 。 实 际 上 ， 这 两 行 Python 代码 也 
确实 都 调用 了 insertdict。 

当 这 两 行 设置 pyDictobject 对 象 元 素 的 Python 代码 被 Python 虚拟 机 执行 时 ， 并 不 
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是 直接 就 调用 insertaict， 因 为 观察 代码 可 以 看 到 ，insertaict 需要 一 个 hash 值 作为 
调用 参数 ， 那 这 个 hash 值 是 在 什么 地 方 获得 的 呢 ? 实际 上 ,在 调用 insertaict 之 前 , 还 
会 调用 pypict_sektcem《 见 代码 清单 5-6)。 

代码 清音 5 





在 pyDict_setItem 中 , 会 首先 在 代码 清单 5-6 的 [四 处 : 得 key 的 hash 值 , 在 上 面 的 
例子 中 ， 也 就 是 一 个 pyIntobject 对 象 1 的 hash 值 。 然后 代码 清音 56 的 [2] 处 通过 
insertdict 进行 元 素 的 插入 或 设置 。 


pyDict_setItem 在 插入 或 设置 元 素 的 动作 结束 之 后 ， 并 不 会 草草 返回 了 事 。 接 下 来 ， 
它 会 检查 是 否 需 要 改变 pyDictobject 内 部 ma_table 所 维护 的 内 存 区 域 的 大 小 ， 在 以 后 
的 叙述 中 ， 我 们 将 这 块 内 存 称 为 “table”。 那么 什么 时 候 需 要 改变 table 的 大 小 呢 ? 在 前 面 
我 们 说 过 ,如果 table 的 装载 率 大 于 2/3 时 , 后 续 的 插入 动作 遭遇 到 冲突 的 可 能 性 会 非常 大 。 
所 以 装载 率 是 否 大 于 或 等 于 2/3 就 是 判断 是 否 需要 改变 table 大 小 的 准 驻 则 。 在 pyDict_ 
Set It em ot i 
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这 个 等 式 左边 的 表达 式 正 是 装载 率 。 然 而 装载 率 只 是 判定 是 否 需要 改变 table 大 小 的 
一 个 标准 ， 还 有 另 一 个 标准 是 在 insertaict 的 过 程 中 ， 是 否 使 用 了 一 个 处 于 Unused 态 
或 Dummy 态 的 enczy。 前面 我 们 说 过 ， 在 搜索 失败 时 ， 会 返回 一 个 Dummy 态 或 Unused 
态 的 entry，insertaict 会 对 这 个 entry 进行 填充 。 只 有 当 这 种 情况 发 生 并 且 装 载 率 超 
标 时 , 才 会 进行 改变 table 大 小 的 动作 ,而 判断 在 insertaict 的 过 程 中 是 否 填充 了 Unused 
eri es entry, ede oobi booted ass 





交趾 的 4 n_used 3 宙 是 浊 种 insertdict 操作 之 前 的 mD”">ma_ USeds 通过 观察 mp->ma_ 
used 是 否 改 变 ， 就 可 以 知道 是 否 有 Unused 态 或 Dummy 态 的 entry 被 填充 。 

在 改变 table 时 ， 并 不 一 定 是 增加 table 的 大 小 ， 同 样 也 可 能 是 减 小 table 的 大 小 。 更 
ee table eA 新 约 人才 table dia 





如 果 一 个 pyDictobject 对 象 的 table 中 只 有 几 个 entry 处 于 Active 态 ， 而 大 多 数 
entry 都 处 于 Dummy 态 ， 那 么 改变 table 大 小 的 结果 显然 就 是 减 小 了 table 的 空间 大 小 。 
在 确定 新 的 table 的 大 小 时 ， 通 常 选用 的 策略 是 时 新 的 table 中 entry 的 数量 是 现在 
table 中 Active 态 entry 数量 的 4 倍 ， 选 用 4 倍 是 为 了 使 table 中 处 于 Active 态 的 entry 
的 分 布 更 加 稀疏 ， 减 少 插入 元 素 时 的 冲突 概率 。 当 然 ， 这 是 以 内 存 空 间 为 代价 的 。 由 于 机 
器 的 内 存 是 有 限 的 ，Python 总 不 能 没 心 没 肺 地 在 任何 时 候 都 要 求 4 倍 空间 ， 这 样 做 ， 别 的 
程序 会 有 意见 的 仿 。 所 以 当 table 中 Active 态 的 entry 数量 非常 大 时 ，Python 只 会 要 求 2 
倍 的 空间 ， 这 次 又 是 以 执行 速度 来 交换 内 存 空间 。Python 2.5 将 这 个 “非常 大 ”的 标准 划 
定 在 50000。 如 此 一 来 ， 各 得 其 所 ， 万 事 大 吉 。 
硅 于 具体 改变 table 大 小 的 重任 , 则 交 到 了 dictresize 一 人 的 肩 上 ( 见 代 码 清单 5-7)。 
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我 们 看 一 看 在 改变 dict 的 内 存 空间 时 所 发 生 的 动作 ， 如 代码 清单 5-7 中 的 [1]、[2]、 
[3]、 喇 、L51]、[6] 所 示 。 \ 

[1] dictresize 首先 会 确定 新 的 table 的 大 小 ， 很 显然 ， 这 个 大 小 一 定 要 大 于 传 入 

的 参数 minused, ee minused 生生 古本 全 村 和 这 是 Python 在 

存 空间 ， 只 许 超出 ， 不 许 偷 

工 减 料 . Daa 以 指数 方式 增加 大 小 ， 到 超过 了 minusea 为 
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止 。 所 以 实际 上 新 的 table 的 大 小 在 大 多 数 情况 下 至 少 是 原来 table 中 Active 态 
[2]、[3] 如 果 在 代码 清单 .5-7 的 [1 中 获得 的 新 的 table 大 小 为 8， 则 不 需要 在 堆 上 分 
配 空间 ， 站 接 使 用 ma_smalltable 就 可 以 了 ; 否则， 则 需要 在 堆 上 分 配 空 


间 。 
[4] 对 新 的 table 进行 初始 化 , 并 调整 原来 pypictobject 对 象 中 用 于 维护 table 使 用 
情况 的 变量 。 


[5] 对 原来 table 中 的 非 Unused 态 entry 进行 处 理 。 对 于 Active 态 encry， 显 然 需 
要 将 其 插入 到 新 的 table 中 ， 这 个 动作 由 前 面 考察 过 的 insertdiet 完成 ， 而 对 于 
Dummy 态 的 entry， 则 将 该 entry 竺 弃 ， 当 然 ， 要 调整 entry 中 key 的 引用 计 
数 。 之 所 以 能 将 Dummy 态 entry 丢弃 ,是 因为 Dummy 态 entry 存在 的 唯一 理 
由 就 是 为 了 不 使 搜索 时 的 探测 链 中 断 。 现在 所 有 Active 态 的 entry 都 重新 依次 
插入 新 的 table 中 ， 它 们 会 形成 一 条 新 的 探测 序列 ， 不 再 需要 这 些 Dumimy 态 的 
entry 了 = 

[6] 如 果 之 前 旧 的 table 指向 了 一 片 系统 堆 中 的 内 存 空间 ， 那 么 我 们 还 需要 释放 这 片 

现在 ， 利 用 我 们 对 pypictobject 的 认识 ， 想 象 一 下 从 table 中 删除 一 个 元 素 应 该 怎 

样 操 作 呢 ? 
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old_value = ep->me :value; 
ep->me_valye = NULE; = 
mp-sma_Used-—} 

Py. DECRER {oldvaiue) ’ 

Py, DECREF (old key}; 

return OQ» , | A yi 


流程 非常 清晰 ， 先 计算 hash 值 ， 然 后 搜索 相应 的 entry， 最 后 删除 entry 中 维护 的 
元 素 ， 并 将 entry 从 Active 态 变换 为 Dummy 态 ， 同 时 还 将 调整 pyDictobject 对 象 中 维 
护 table 使 用 情况 的 变量 。 


5.3.4 ”操作 示例 


下 面 我 们 用 一 个 简单 的 例子 来 动态 地 展示 对 pypictobject 中 table 的 维护 过 程 ， 需 
要 提醒 的 是 ,这 里 采用 的 散 列 函 数 和 探测 函数 都 与 Python 中 pyDictobject 实际 采用 的 策 
咯 不 同 ， 这 里 上 只 是 从 观念 上 展示 对 table 的 维护 过 程 。 在 下 面 的 图 中 ， 和 白色 背景 元 素 代表 
Unused 态 entry， 灰 色 背 景 元 素 为 Active 态 ， 交 叉 图 饰 背 景 元 素 为 Dummy 态 。 
假如 table 中 有 10 个 entry， 散 别 函 数 为 HASH(x) = x mod 10， 冲突 解决 方案 采用 
线性 探测 ， 且 探测 函数 为 x = x + 1。 假 设 向 table 中 依次 加 入 了 以 下 元 素 对 : (4, 4),，(14， 
14),，(24，24),，(34，34)， 则 加 入 元 素 后 的 entry 的 Gict 如 图 5-5 所 示 : 
-| ame 
#1 #2 #3 #9 #10 
图 5-5 揪 入 与 删除 示例 图 之 一 
现在 删除 元 素 对 (14，14)， 位 置 朱 处 的 entry 将 从 Active 态 进 入 Dummy 态 。 然 后 
我 们 间 table 中 插入 新 的 元 素 对 (104，104)， 则 在 搜索 的 过 程 中 ， 由 于 原来 位 置 打 处 维护 
14 的 antry 现在 处 于 Dummy 态 ， 所 以 Ereesiots 会 指向 这 个 可 用 的 entrys 如 图 5-6 


所 未 ; 
freesiot 
| a | 
# 栅 拘 接 业 条 李 船 向 #0 


图 5-6 插入 与 删除 示例 图 之 二 
搜索 完成 后 ， 填 充 Ereeslot 所 指向 的 entry， 其 结果 如 图 5-7 所 示 : 


#7 #8 #10 
a rl ey 


然后 ， 再 向 table 中 插入 元 素 对 (14，14)， 这 时 由 于 探测 序列 上 已 经 没有 Dummy 态 
的 entry 了 ， 所 以 最 后 返回 的 ep 会 指向 一 个 处 于 Unused 态 的 entry， 如 图 5-8 所 示 : 
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机 ” 报 两 机 古 两 机 机 机 和 0 
图 5-8 插入 与 删除 示例 图 之 四 
最 后 插入 元 素 对 (14，14)， 结 果 如 图 5-9 所 示 : 


#1 站 可 接 后 机 扫 要 丝 扩 0 


图 5-9 插入 与 删除 示例 图 之 五 





5.4 ”PyDictObject 对 象 缓冲 池 


前 面 我 们 提 到 ， 在 pyDictoObiject 的 实现 机 制 中 ， 同样 使 用 了 缓冲 池 的 技术 。 现在 ， 
abs RyPiokobjags 对 象 的 缓冲 池 ; 





实际 上 ，PyDictobject 中 使 用 的 这 个 缓冲 池 机 制 与 pylistobjecc 中 使 用 的 缓冲 池 
机 制 是 一 样 的 。 开 始 时 ， 这 个 组 冲 池 里 什么 都 没有 , 直到 第 一 个 pyDictobject 被 销毁 时 ， 
这 个 缓冲 池 才 开始 接纳 被 缓冲 的 pyDictobject 对 象 《 见 代码 清单 5-8)。 


代码 清单 5-8 
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和 pyListobject 中 缓冲 池 的 机 制 一 样 ， 缓 冲 池 中 只 保留 了 PyDictobject 对 象 。 如 
果 pypictobject 对 象 中 ma_table 维护 的 是 从 系统 堆 申 请 的 内 存 空间 , 那么 Python 将 释 
放 这 块 内 存 室 间 ， 归 还 给 系统 堆 。 而 如 果 被 销毁 的 PyDictobject 中 的 table 实际 上 并 没 
有 从 系统 堆 中 申请 ， 而 是 指向 pypictobject 固有 的 ma_samallcablIe， 那 么 只 需要 调整 
ma_smalltable 中 的 对 象 引用 计数 就 可 以 了 。 

在 创建 新 的 pyDicto5ject 对 象 时 ， 如 果 在 缓冲 池 中 有 可 以 使 用 的 对 象 ， 则 直接 从 组 
冲 池 中 取出 使 用 ， 而 不 需要 再 重新 创建 : 





5.5 Hack PyDictObject 





现在 我 们 可 以 根据 对 pyDictobject 的 了 解 , 在 Python 源 代码 中 添加 代码 , 动态 而 真 
实地 观察 Python 运行 时 PyDictobject 的 一 举 一 动 了 。 

我 们 首先 来 观察 , 在 insertaict 发 生 之 后 , PyDictobject 对 象 中 table 的 变化 情况 。 
由 于 Python 内 部 大 量 地 使 用 pypictobject， 所 以 对 insertaict 的 调用 会 非常 频繁 ， 成 
千 上 万 的 pypictobject 对 象 会 排 着 长 队 来 依次 使 用 insertaict。 如 果 内 是 简单 地 输出 ， 
我 们 立刻 就 会 被 淹没 在 输出 信息 中 。 所 以 我 们 需要 一 套 机 制 来 确保 当 insertaict 发 生 在 
某 一 特定 的 pyDictobject 对 象 身上 时 ， 才 会 输出 信息 。 这 个 pypictobject 对 象 当然 是 
我 们 自己 创建 的 对 象 ， 必 须 使 它 有 区 别 于 Python 内 部 使 用 的 PyDictobject 对 象 的 特征 。 
这 个 特征 ， 在 这 里 ， 我 把 它 定义 为 erpictopject 包含 “PR” 的 pystringobject 对 象 ， 当 
然 , 你 也 可 以 选用 自己 的 特征 串 。 如 果 在 PyDictobject 中 找到 了 这 个 对 象 , 则 输出 信息 : 
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. , a eM rR 
对 于 pyDictobject 对 象 ， 依 次 插入 9 和 17， 根 据 pypictobject 选用 的 hash 策略 ， 


这 两 个 数 会 产生 冲突 ，9 的 hash 结果 为 1， 而 17 经 过 再 次 探测 后 ， 会 获得 hash 结果 为 7。 
图 5-10 i ee i id 
二 





图 5-10 dict 变动 时 table 的 变化 情况 


然后 我 们 将 9 删除 ， 则 原来 9 的 位 置 会 出 现 一 个 aummy 态 的 标识 。 接 着 将 17 市 除 ， 
并 再 次 插入 17， 显 然 ，17 应 该 出 现在 原来 9 的 位 置 ， 而 原来 17 的 位 置 则 是 dumnmy 标识 。 
图 5-10 中 的 后 两 个 结果 显示 了 这 个 过 程 。 


下 面 我 们 观察 Python 自身 对 pyDictobject 的 使 用 情况 , 在 dict_dealloc 中 添加 代 
码 监 控 Python 在 执行 时 调用 dict_dealloc 的 频 度 ， 图 5-11 是 监测 结果 : 


: size 1 mum free dicts i 
: size 1 num free dicts i 
: size 0 num free dicts 

: size 0 num free dicte i 
: Size 0 num free dicts 

: size 0 num free dicts i 
: size 0 num free dicts i 
: size 2 num free dicts i 


: size 1 num free dicts i 
: Size 0 mmfree_dicts i 
: Size 0 num free_ dicts i 
: size 0 rum free dicts 
; size 1 num free dicts i 
size 1 num free dicts 


人 TCR WRN 和 NM" 


rium free dicts i 
num free_ dicts 1 


图 ， 5-11 Python 执行 时 使 用 dict 全 情况 
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我 们 前 面 已 经 说 了 ，Python 内 部 大 量 使 用 了 pyDictobject 对 象 ， 然 而 监测 的 结果 还 
是 让 我 们 惊讶 不 已 ， 原 来 对 于 一 个 简 简单 单 的 赋值 ， 一 个 简 简单 单 的 打印 ，Python 内 部 都 
会 创建 并 销毁 多 达 14 个 的 PyDictobject 对 象 。 不 过 这 14 个 aict 中 有 一 些 是 重新 申请 
的 ， 所 以 最 终 缓冲 池 中 的 自由 dict 对 象 总 是 9 个 。 这 14 个 dict 对 象 中 有 一 些 参与 编译 
过 程 的 Pypictobject 对 象 , 所 以 在 执行 一 个 完整 的 Python 源 文件 时 ， 并 不 是 每 一 行 都 会 
销毁 如 此 庞大 的 aict 群 。 当然 ， 我 们 可 以 看 到 ， 这 些 PyDictObject 对 象 中 entry 的 个 
数 都 很 少 ， 所 以 只 需要 使 用 ma_smalltable 就 可 以 了 。 这 里 ， 也 提醒 我 们 PyDictobject 
缓冲 池 的 重要 性 。 


所 以 我 们 也 监控 了 缓冲 池 的 使 用 ， 在 diet_print 中 添加 代码 ， 打 印 当前 的 num_free_ 
aicts 值 。 监控 结果 见 图 5-12。 有 一 点 奇怪 的 是 , 在 创建 了 电 和 之 后 , num_free_dicts 
的 值 仍然 都 是 9。 直 觉 上 来 讲 ， 它 们 对 应 的 是 应 该 是 6 和 5 才 对 。 但是， 看 一 看 图 5-11， 
其 实在 执行 print 语句 的 时 候 ， 同 “i = 1” 这 样 的 赋值 语句 一 样 ， 同 样 会 调用 deallsc 
操作 14 次 , 最 后 也 同样 会 剩 下 9 个 自由 的 Gict 对 象 , 所 以 每 次 打印 出 来 , num_free_dicts 
的 值 都 是 9。 后 来 ael dl 和 ael a2 时 ， 每 次 除了 Python 虚拟 机 例 行 的 14 次 销毁 外 ， 还 
有 我 们 自己 创建 的 aict 对 象 的 销毁 , 所 以 打印 出 来 的 num_free_aicts 的 值 变 为 了 10 和 
l1。 





Mm free dicts is ; 11 
图 5-12 监控 dict 缓冲 池 
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6.1 


CHAPTER 


Small Python 


在 详细 考察 了 Python 中 最 常用 的 几 个 对 象 之 后 ， 我 们 现在 完全 可 以 利用 这 些 对 象 做 
出 一 个 最 简单 的 Python。 这 一 章 的 目的 就 是 模拟 出 这 样 一 个 最 简单 的 Python, 我 们 把 它 称 
为 Small Python 。 


在 Small Python 中 ， 我 们 首先 需要 实现 之 前 已 经 分 析 过 的 那些 对 象 ， 比 如 PyInt- 


0bject， 与 CPython 不 同 的 是 ， 我们 并 没有 实现 像 CPython 那样 复杂 的 机 制 ， 作 为 一 个 模 
拟 程 序 ， 我 们 只 实现 了 简单 的 功能 ， 也 没有 引入 对 象 缓 神 池 的 机 制 。 这 一 切 都 是 为 了 简洁 


而 清晰 地 展示 出 Python 运行 时 的 脉络 。 


在 Small Python 中 ， 实 际 上 还 需要 实现 Python 的 运行 时 环境 ，Python 的 运行 时 环境 
是 我 们 在 以 后 的 章节 中 将 要 剂 析 的 重点 。 在 这 里 只 是 展示 了 其 核心 的 思想 一 一 利用 
pyDictobject 对 象 来 维护 变量 名 到 变量 值 的 映射 。 


当然 ， 在 CPython 中 ， 还 有 许多 其 他 的 主题 ， 比 如 Python 源 代 码 的 编译 ，Python 字 
节 码 的 生成 和 执行 等 ， 在 Small Python 中 ， 我 们 都 不 会 涉及 ， 因 为 到 目前 为 止 ， 我 们 没有 
任何 能 力 做 出 如 此 逼 喜 的 模拟 。 不 过 当 我 们 跟随 本 书 完 成 了 Python 源 代码 的 探索 之 后 ， 
就 完全 有 能 力 实现 一 个 真正 的 Python 了 。 

在 Small Python 中 ， 我 们 仅仅 实现 了 PyIntobijects PyStringObject 及 EyDict- 
object 对 象 ， 仅 仅 实现 了 加 法 运算 和 输出 操作 。 同 时 编译 的 过 程 也 被 简化 到 了 极致 ， 
此 我 们 的 Small Python 只 能 处 理 非常 受 限 的 表达 式 。 虽 然 很 简陋 , 但 从 中 可 以 看 到 Python 
的 骨架 ， 同 时 ， 这 也 是 我 们 深入 Python 虚拟 机 和 运行 时 的 起 点 。 


Python 汤 反 前 新 一 一 深 居 闲 策 入 入 滞 车 举人 心 接 环 





102 名 第 6 章 最 简单 的 Python 模拟 一 一 Small Python 
6.2 ”对 象 机 制 


在 Small Python 中 ， 对 象 机 制 与 CPython 完全 相同 : 








但 是 对 于 类 型 对 象 ， 我 们 进行 了 大 规模 的 删 减 。 最 和 在 类 型 时 多 中 ， 二 
二 和 由 





Python 源码 剂 白 一 一 深度 烽 壳 动 夏 迁 这 页 少 共 天 





6.2 对 象 机 制 ”多 


small Python 中 的 RE 中 大 不 相同 ， 在 CP 
object 是 一 个 变 长 对 象 ， 而 Small Python 中 只 是 一 个 简单 J 下 作弄 
的 定位 就 是 个 演示 的 程序 : 


Python 漂 始 曾 匠 一 一 深 殿 次 生动 态 庆 昔 檬 心 蔽 大 
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Python 洲 汉 测 六 一 一 深 诬 次 莫 动 于 说 言 秦 人 心 蕉 并 
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在 Python 的 解释 器 工作 时 ， 还 有 一 个 非常 重要 的 对 象 ，pyDictobject 对 象 。 
pyDictobject 对 象 在 Python 运行 时 会 维护 变量 名 和 变量 值 的 映射 关系 , Python 所 有 的 动 
作 都 是 基于 这 种 映射 关系 的 。 在 Small Python 中 ， 我 们 基于 C+ 中 的 map 来 实现 
pyDictobject 对 象 。 当 然 ，map 的 运行 效率 比 CPython 中 所 采用 的 hash 技术 会 慢 一 些 ， 
而 且 ， 对 于 散 列 冲突 的 情况 ，map 也 没有 办 法 解决 ， 但 是 对 于 我 们 的 Small Python，map 
就 是 够 了 
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在 上 边 列 出 了 ， 非常 简单 ， 对 吧 ， 这 就 对 了 ， 





Small Python 中 的 对 象 机 制 的 所 有 内 容 
要 的 就 是 这 个 简单 @。 


6.3 ”解释 过 程 i al z 










说 Small Python 中 没有 编译 ,对 的 , 它 根本 就 不 会 进行 任何 常规 的 编译 动作 , 没 
解析 ， 没 有 抽象 语法 树 的 建立 。 但 说 es We 
错 ， 我 们 叫 这 种 动作 为 解释 。 无论 如 何 ， 它 至 少 要 解析 输入 的 诸 铅 ， 以 判断 这 条 语 
是 相干 什么 ， 它 是 要 上 山林 席 呢 ， 还 是 要 下 河 换 全 ? 如 果 壬 这 最 基本 的 者 做 不 到 ，Small 


Python 还 不 如 回 家 卖 红薯 得 了 。 
然而 Small Python 中 的 这 种 解释 动作 还 是 被 简化 到 了 极致 ， 它 实际 上 就 是 简单 的 字符 


串 查 找 加 i f..else.. 结 构 : : 
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现 “print”,， 就 是 一 个 输出 过 各 以 ExcuteAdd hy pi 行 字 付 串 
以 确定 是 否 需要 有 一 个 额外 的 加 法 过 程 ,根据 这 些 解析 的 结果 生 不 同 的 细作 ， 就 是 Small 
Python 中 的 解释 过 程 。 这 个 过 程 在 CPython 中 是 通过 正常 的 编译 过 程 来 ， 而 且 
会 得 到 字 节 码 的 编译 结果 。 

在 这 里 需要 重点 指出 的 是 那个 m_LocalEnvirornment， 这 是 一 个 pyDictobject 对 
象 ， 其 维护 着 Small Python 运行 过 程 中 ， 动 态 创建 的 变量 的 变量 名 和 变量 值 的 映射 。 这 个 
就 是 Small Python 中 的 执行 环境 ，Small Python 正 是 靠 它 来 维护 运行 过 程 中 的 所 有 变量 的 
状态 。 在 CPython 中 ， 运 行 环 境 实际 上 也 是 这 样 一 个 机 制 。 当 需要 访问 变量 时 ， 就 从 这 个 


en 
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PyDictobject 对 象 中 查找 灾 量 的 值 。 这 一 点 在 执行 输出 操 1 








前 过 变量 名 symbol， 获 得 了 变量 值 cbject 。 而 在 刚才 的 Excueteaaa 中 ， 
我 们 将 变量 名 和 变量 值 建立 了 联系 , 并 存放 到 m_LocalEnvizonment 中 。 这 种 一 进 一 出 的 
机 制 正 是 CPython 执行 时 的 关键 ， 在 以 后 对 Python 字 节 码 解释 器 的 详细 庆 析 中 ， 我 们 将 
真实 而 具体 地 看 到 这 种 机 制 。 


6.4 ”交互 式 环境 


好 了 ， 我 们 的 Small Python 几乎 已 经 完成 了 ， 最 后 所 缺 的 就 是 一 个 交互 式 环境 ; 
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到 这 里 , 我 们 就 结束 了 对 Python 中 内 建 对 象 的 探索 , 通过 Small Python 这 一 个 简 随 的 
承前启后 的 东西 ， 我 们 将 敲 开 Python 虚拟 机 的 大 门 。 那 里 是 字 节 码 、 虚 拟 机 、 条 件 判断 
语句 、 函 数 、 类 、 异 常 等 的 神秘 世界 。 好 了 ， 打 起 精神 ， 我 们 出 发 了 …… 
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平时 我 们 可 能 每 天 都 会 写 一 些 这 样 或 那样 的 Python 程序 ， 或 者 是 处 理 文本 ， 或 者 是 
进行 系统 管理 工作 。 要 运行 这 些 程序 ， 我 们 或 者 是 双击 文件 图 标 〈Windows 平台 )， 或 者 
是 在 命令 行 环境 下 键入 python my-program.py 这 样 的 命令 (Windows 平 台 或 Linux 平 台 )， 
只 要 完成 这 些 动作 ,Python 程序 就 如 我 们 所 预期 的 那样 开始 工作 ,那么 ,一 个 文本 方式 的 .py 
文件 是 怎样 转换 成 一 系列 的 机 器 指令 并 被 执行 的 呢 ? 


7.1 ”Python 程序 的 执行 过 程 


事实 上 ，,py 文件 中 的 Python 语句 并 没有 被 转换 成 一 系列 的 机 器 指令 。 这 一 点 可 能 我 
们 都 有 所 耳闻 ， 因 为 坊间 广泛 地 流传 着 这 样 一 种 说 法 ， Python 是 一 种 解释 性 的 语言 。 这 种 
说 法 是 不 正确 的 ， 实 际 上 ， 尽 管 Python 不 如 Java，C# 一 样 出 身 名 门 ， 但 是 Python 的 本 质 
与 Java 和 C# 蚌 一 样 的, Python 程序 的 执行 原理 和 Java 程序 、C# 程 序 的 执行 原理 都 可 以 用 
两 个 词 囊括 一 一 虚拟 机 、 字 节 码 。 


我 们 知道 ， Python 有 一 个 非常 核心 的 东西 ， 这 个 东西 通常 被 称 为 解释 器 (interpreter)， 
当 我 们 在 命令 行 下 敲 入 python 时 ， 目 的 就 是 为 了 激活 这 个 解释 器 。 当 我 们 通过 python 
my-program.py 执行 一 个 特定 的 Python 程序 时 ，Python 解释 器 立即 被 激活 ， 然 后 执行 
Python 程序 。 在 真正 开始 执行 之 前 ， 实 际 上 ，Python 的 解释 器 还 要 完成 一 个 非常 复杂 的 工 
作 一 一 编译 .py 文件 。 


编译 ? 没 错 ， 确 实 是 编译 。 实 际 上 ，Python 解释 器 在 执行 任何 一 个 Python 程序 文件 
时 ， 首 先进 行 的 动作 都 是 先 对 文件 中 的 Python 源 代码 进行 编译 ， 编译 的 主要 结果 是 产生 
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一 组 Python 的 byte code ( 字 节 和 码 )， 然 后 将 编译 的 结果 交 给 Python 的 贿 拟 机 《〈Virtual 
Machine)， 由 虚拟 机 按照 顺序 一 条 一 条 地 执行 字 节 码 ， 从 而 完成 对 Python 程序 的 执行 动 
作 。 那 么 这 些 Python 的 编译 咒 还 有 Python 的 虚拟 机 在 什么 地 方 呢 ?难道 在 python.exe 中 ? 
如 果 你 仔细 观察 过 python.exe， 你 会 发 现 这 个 可 执行 程序 仅仅 只 有 24KB， 不 太 可 能 容纳 
下 一 个 编译 器 外 带 一 个 虚拟 机 吧 。 呢 ， 别 着 急 ， 我 们 先 通过 图 7-1 来 看 一 看 Python 程序 的 
执行 过 程 ; 


program.py RE smea| 


所 7 


python2s, dll 
图 7-1 Python 程序 的 执行 过 程 

细心 的 你 一 定 发 现 了 ， 我 在 编译 和 执行 的 地 方 都 放 上 了 一 个 python25.dll， 似 乎 
python25.dll 既 当 务 ， 又 当 妈 ， 既 完成 了 编译 器 的 工作 ， 又 完成 了 虚拟 机 的 工作 。 没 错 ， 
Python 的 编译 器 和 虚拟 机 都 藏身 于 这 个 python 25.dll 中 , 在 安装 Python 的 时 候 ， 安 装 程序 
会 自动 将 这 个 dj 置 于 W%systemroot%\system32 (通常 %systemroot 允 是 C'\WINDOWS ) 目录 
下 ， 

对 比 一 下 Java 程序 ， 首 先 我 们 会 有 一 个 program.java 的 Java 源 程序 ， 然 后 ， 用 javac 
对 program.java 进行 编译 ， 产 生 一 个 program.class 文件 ， 最 后 调用 java 命令 执行 
program.class 中 包含 的 Java 字 节 码 ， 得 到 结果 。 可 以 看 到 ，program.py 对 应 program.java， 
program.pyc 对 应 program.class， 这 个 过 程 与 Python 执行 程序 的 过 程 实际 是 完全 一 致 的 。 


虽然 Python 程序 执行 的 机 理 与 Java 程序 和 C# 程 序 的 执行 机 理 是 一 样 的 , 但 是 Python 
的 虚拟 机 与 Java 和 .NET 虚拟 机 还 有 不 同 之 处 。 一 个 最 大 的 不 同 是 ，Python 的 虚拟 机 是 一 
种 更 高 级 的 虚拟 机 。 这 里 的 高 级 不 是 说 Python 的 虚拟 机 的 功能 比 Java 和 .NET 虚拟 机 的 功 
能 更 强大 、 更 搜 ， 而 是 说 与 Java 或 .NET 相 比 ，Python 的 虚拟 机 距离 真实 机 器 更 远 。 或 者 
可 以 这 么 说 ，Python 虚拟 机 是 一 种 抽象 层次 更 商 的 虚拟 机 。 
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7.2 Python 编译 器 的 编译 结果 一 一 PyCodeObject 对 象 
UO 


7.2.1 PyCodeObject 对 象 与 pyc 文件 
在 图 7-1 中 可 以 看 到 ，Python 对 源 程序 的 编译 结果 是 生成 了 一 个 .pye 文件 ， 然 而 这 实 
际 上 是 不 太 准 确 的 。 下 面 我 们 先 通过 考察 一 个 简单 的 Python 程序 源 文件 来 猜测 一 下 ， 一 
个 源 文件 被 Python 编译 器 编译 之 后 究竟 应 该 产生 一 些 什么 结果 ， 
[demo.py] pli 山本 1 fs "Te TT 


pe “= 





译 ， 编 译 的 结果 是 什么 呢 ? 当然 有 字 节 码 ， 否 则 接 下 来 的 Python 虚拟 机 也 就 没 办 法 再 玩 
下 去 了 。 然 而 除了 字 节 码 之 外 ,编译 的 结果 中 还 应 包含 其 他 一 些 信息 , 这 些 信息 也 是 Python 
运行 的 时 候 所 必需 的 。 

看 一 下 demo.py， 让 我 们 充当 Python 编译 器 ， 用 肉眼 来 解析 一 下 ， 从 这 个 文件 中 , 我 
们 可 以 看 到 ， 其 中 包含 了 一 些 字符 串 ， 一 些 常量 值 ， 还 有 一 些 操作 。 当 然 ，Python 对 操作 
的 编译 结果 就 是 字 节 码 。 那 么 Python 的 编译 过 程 对 字符 串 和 常量 值 的 处 理 结果 是 什么 呢 ? 


在 编译 过 程 中 ， 这 些 包含 在 Python 源 代 码 中 的 静态 信息 都 会 被 Python 编译 器 收集 起 
来 ， 编 译 的 结果 中 包含 了 字符 串 ， 常 量 值 ， 字 节 码 等 在 源 代 码 中 出 现 的 一 切 有 用 的 静态 信 
息 。 在 Python 运行 期 间 ， 这 些 源 文 件 中 提供 的 静态 信息 最 终 会 被 存储 在 一 个 运行 时 的 对 
象 中 ， 当 Python 运行 结束 后 ， 这 个 运行 时 对 象 中 所 包含 的 信息 甚至 还 会 被 存储 在 一 种 文 
件 中 。 这 个 对 象 和 文件 就 是 我 们 这 章 探 索 的 重点 ，pycodeobject 对 象 和 pye 文件 。 

从 上 面 的 描述 中 ， 可 以 看 出 ， 尽 管 图 7-1 中 编译 的 结果 是 一 个 pye 文件 ， 但 是 在 pye 
文件 中 ， 正 襟 危 坐 的 其 实 是 一 个 pycodeobject 对 象 ， 对 于 Python 编译 器 来 说 ， 
PyCodeObject 对 象 才 是 其 真正 的 编译 结果 ， 而 pyc 文件 只 是 这 个 对 象 在 硬 入 上 的 表现 形 
式 ， 它 们 实际 上 是 Python 对 源 文件 编译 的 结果 的 两 种 不 同 存在 方式 。 


在 程序 运行 期 间 , 编译 结果 存在 于 内 存 的 Pycoaeobject 对 象 中 ; 而 Python 结束 运行 
后 ， 编 译 结果 又 被 保存 到 了 pye 文件 中 。 当 下 一 次 运行 相同 的 程序 时 ，Python 会 根据 pye 
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文件 中 记录 的 编译 结果 直接 建立 内 存 中 的 pycodeobject 对 象 ， 而 不 用 再 次 对 源 文 件 进行 
编译 了 ， 


7.2.2 Python 源码 中 的 PyCodeObject 


对 Python 的 编译 过 程 ， 我 们 不 做 过 多 的 剖析 ， 毕 竟 ，Python 的 编译 过 程 和 编译 原理 
中 描述 的 过 程 没有 太 多 的 区 别 。 我 们 把 关注 的 重点 放 在 Python 的 编译 结果 上 ， 要 彻底 地 
理解 Python 虚拟 机 的 运行 行为 , 必须 要 彻底 地 理解 Python 的 编译 结果 一 一 pycodeobjectr。 


先 来 看 一 看 在 Python 源码 中 对 Pycodeobject 的 声明 : 






PyCodeObject 对 象 中 的 各 个 域 各 包含 了 什么 信息 ， 我 们 现在 可 以 暂时 不 理会 ， 在 以 
后 的 剖析 中 ,我 们 会 一 步 一 步 将 Bycodeobject 的 各 个 域 里 都 包含 了 哪些 信息 全 挖 搬出 来 . 
这 里 可 以 稍稍 透露 一 下 ， 在 co_code 域 存放 的 就 是 编译 所 生成 的 字 节 码 指令 序列 。 


Python 编 详 回 在 对 Python 源 代码 进行 编译 的 时 候 ， 对 于 代码 中 的 一 个 Code Block， 
会 创建 一 个 egycoaeobjeet 对 象 与 这 段 代码 对 应 。 那 么 如 何 确定 多 少 代码 算是 一 个 Code 
Block 呢 ? 事实 上 ，Python 有 一 个 简单 而 清晰 的 规则 : 当 进 入 一 个 新 的 名 宇 空间 ， 或 者 说 
作用 域 时 ， 我 们 就 算是 进入 了 一 个 新 的 Code Block 了 。 


回顾 一 下 上 一 节 的 demo.py 文件 ， 在 Python 编译 器 对 源 代 码 完成 编译 之 后 ， 总 共 会 
创建 3 个 pycodeobject 对 象 , 一 个 是 对 应 demo.py 整个 文件 的 , 一 个 是 对 应 class A 所 代 
表 的 Code Block， 而 最 后 一 个 是 对 应 def Fun 所 代表 的 Code Blcok。 
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在 这 里 ， 我 们 开始 提 及 Python 中 一 个 至 关 重 要 的 概念 一 一 名 字 空 间 。 名 字 空 间 是 符 
号 的 上 下 文 环境 ， 符 号 的 含义 取决 于 名 字 空 间 。 更 具体 地 说 ， 一 个 变量 名 对 应 的 变量 值 是 
什么 ， 在 Python 中 ， 这 并 不 是 确定 的 ， 而 是 需要 通过 名 字 空 间 来 决定 。 


对 于 某 个 符号 ， 比 如 说 a， 在 某 个 名 字 空 间 中 ， 它 可 能 是 一 个 pyIntobject 对 象 ; 而 
在 另 一 个 名 字 空 间 中 ， 它 则 可 能 是 一 个 pgystringobjeet 对 象 。 在 一 个 名 字 空 间 中 ， 一 个 
符号 只 可 能 有 一 种 意义 ，a 要 么 是 pyIntobject， 要 么 是 pystringobject。 名 字 空 间 可 
以 一 个 套 一 个 地 形成 一 条 名 字 空 间 链 ，Python 虚拟 机 在 执行 的 过 程 中 , 会 有 很 大 一 部 分 时 
间 消 耗 在 从 这 条 名 字 空 间 链 中 确定 一 个 符号 所 对 应 的 对 象 是 什么 。 


如 果 你 现在 对 名 字 空 间 的 概念 还 不 是 太 明 了 ， 不 要 紧 ， 随 着 对 Python 源码 剖析 的 深 
入 ， 你 一 定 会 对 名 字 空 间 以 及 Python 在 名 字 空 间 链 上 的 行为 有 越 来 越 深刻 的 理解 。 现 在 
我 们 需要 记 住 的 是 ， 一 个 我 们 前 面 所 说 的 Code Block， 就 对 应 着 一 个 名 字 室 间 ， 它 会 对 应 
一 个 pyCodeObject 对 象 。 在 Python 中 ， 类 、 函 数 、module 都 对 应 荐 一 个 独立 的 名 字 空 
间 。 因 此 ， 都 会 有 一 个 PycodeObject 对 象 与 其 对 应 。 所 以 ，demo.py 经 过 Python 编译 器 
的 编译 后 ， 一 共 得 到 3 个 pgycodaeobject 对 象 。 


7.2.3 ”pyc 文件 


每 一 个 Pycodeobject 对 象 中 都 包含 了 每 一 个 Code Block 中 所 有 Python 源 代码 经 过 
编译 后 得 到 的 byte code 序列 。 前 面 我 们 提 到 , Python 会 将 这 些 字 节 码 序列 和 PyCodeobject 
对 象 一 起 存储 在 pye 文件 中 。 但 不 幸 的 是 ， 事 实 并 不 总 是 这 样 。 试 着 在 命令 行 下 执行 一 下 
python demo.py， 你 会 发 现 Python 并 没有 产生 一 个 对 应 的 pyc 文件 ， 为 什么 呢 ? 真实 的 
原因 不 得 而 知 ， 不 过 我 们 可 以 做 出 一 个 合理 的 猜测 : 有 一 些 Python 程序 只 是 临时 完成 一 
些 琐碎 的 工作 ， 比 如 统计 某 个 特定 文件 中 的 词 频 信息 ， 这 样 的 程序 可 能 仅仅 运行 一 次 ， 然 
后 就 再 也 没 用 了 ,所 以 也 就 没有 保存 其 对 应 的 pyc 文件 的 必要 ,， 因 此,， 对 于 直接 用 python 
demo .py 这 样 的 形式 执行 的 程序 ，Python 就 不 会 存储 编译 结果 了 。 


但 是 假如 说 demo.py 中 实现 的 是 一 个 需要 被 重用 的 类 时 ， 我 们 就 希望 能 存储 其 对 应 的 
PyCodeObject 对 象 ， 这 样 下 次 Python 就 不 会 再 次 进行 编译 了 。 当 在 男 外 一 个 程序 ， 比 如 
说 在 demo,py 中 对 demo.py 进行 一 个 import demo 的 动态 加 载 动作 之 后 ， 你 就 会 发 现 ， 
Python 会 为 其 产生 pyc 文件 了 。 

这 意味 着 Python 的 import 机 制 会 触发 pyc 文件 的 生成 。 实 际 上 ， 在 Python 运行 的 过 
程 中 ， 如 果 碰 到 import abc 这 样 的 语句 ， 那 么 Python 将 到 设 定好 的 path 中 寻找 abc.pyc 
或 abc.dll 文件 ， 如 果 没 有 这 些 文件 ， 而 只 是 发 现 了 abc.py， 那 么 Python 会 首先 将 abc .py 
编 详 成 相应 的 pycodeobject 的 中 间 结 果 ， 然 后 创建 abc.pye 文件 ， 并 将 中 间 结 果 写 入 该 
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文件 。 接 下 来 ，Python 才 会 对 abc:pyc 文件 进行 import 的 动作 ， 实 际 上 也 就 是 将 abc.pyc 
文件 中 的 EycoGeDbject 重新 在 内 存 中 复制 出 来 ， 

关于 Python 的 import 机 制 ， 在 后 面 的 章节 中 将 专门 予以 剖析， 这 里 我 们 只 简单 地 利 
用 Python 内 建 的 imp modiile 来 完成 对 生成 pye 文件 的 触发 。 当 然 ， 为 了 得 到 一 个 py 文件 
对 应 的 pyc 文件 有 很 多 种 方法 ， 比 如 利用 Python 标准 库 中 的 py_compile、compiler 工具 。 
这 些 方法 间 没 有 什么 优 劣 之 分 ， 不 过 我 们 在 这 里 选用 import 机 制 罢 了 。 很 容易 利用 下 面 所 
示 的 generator.py 来 创建 上 面 那 段 代 码 〈CodeObjectLpy) 对 应 的 pyc 文件 。 
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图 7-2 demo.pyc 的 内 容 


可 以 看 到 ，pye 是 一 个 二 进 制 文件 ， 那么 Python 如 何 解释 这 一 堆 看 上 去 毫 无 意义 的 字 
节 流 就 至 关 重 要 了 。 这 也 就 是 我 们 所 关心 的 pyc 文件 的 格式 。 

要 了 解 pyc 文件 的 格式 ， 首 先 我 们 必须 要 清楚 pycoasobjecr 中 每 一 个 域 都 表示 什么 
含义 ， 这 一 点 是 无 论 如 何不 能 绕 过 去 的 。 表 7-1 列 出 了 Pycodeobject 对 象 中 各 个 域 的 具 
体 意义 。 

2 7-1 PyCedeONect 由 各 个 沽 的 意 兴 


ownaar To ho (位 置 参 数 
请 参见 第 11 章 对 函数 机 制 的 剖析 ) 
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续 表 

Field “yl : . by pj i z 
co-nlocals | Cods A 中 局 部 变量 的 个 昭 ， 包括 其 位 置 参 康 的 不 数 

co_stacksize | 执行 该 段 Code Block 需要 的 栈 空 间 

¢o._ flags N/A 

co_code Code Block 编译 所 得 的 字 节 码 指 今 序列 。 以 PyStringObject 的 形式 存在 
CO_Consts PyTupleObject 对 象 ， 保 和 存 Code Block 中 的 所 有 常量 

co_names PyTupleObject 对 象 ， 保 存 Code Block 中 的 所 有 符号 

co_varnames | Code Block 中 的 局 部 变量 名 集合 

co_freevars “| Python 实现 闭 包 需要 用 到 的 东西 ， 后 面 的 章节 中 会 涉及 

co_cellvars “| Code Block 中 内 部 谋 套 函数 所 引用 的 局 部 变量 名 集合 

co_filename | Code Block 所 对 应 的 ,py 文件 的 完整 路 径 

co_name Code Block 的 名 字 ， 道 常 是 函数 名 或 类 名 

co_firstlineno | Code Block 在 对 应 的 ,py 文件 中 的 起 始 行 


co_jnotab 


字 节 码 指令 与 .py 文件 中 source code 行 号 的 对 应 关系 ,以 PyStringObject 的 形 
式 存 在 


标注 为 N/A 的 域 是 说 明 该 域 对 于 理解 Python 虚拟 机 的 行为 没有 太 多 和 骨 处 ， 所 以 我 们 
在 以 后 的 剖析 中 也 不 会 涉及 。 


这 里 需要 说 明 一 下 的 是 co_lnotab 域 。 在 Python 2.3 以 前 ， 有 一 条 字 节 码 指 令 ， 叫做 
SET_LINENO， 这 条 字 节 码 会 记录 .py 文件 中 source code 的 位 置 ( 行 号 ) 信息 ， 这 个 信息 对 
于 调试 和 显示 异常 信息 都 有 用 。 但 是 ， 在 Python 2.3 之 后 ，Python 在 编译 时 不 会 再 产生 这 
条 字 节 码 ， 因 为 毕竟 字 节 码 代 表 的 是 运行 时 的 行为 ， 而 记录 源 代码 行 号 的 动作 完全 可 以 在 
编译 时 完成 。 所 以 ， 相 应 地 ，Python 会 在 编译 时 直接 将 这 个 信息 记录 到 co_lnotrab 中 。 

co_lnotab 中 的 字 节 码 和 相应 source code 行 号 的 对 应 信息 是 以 unsigned bytes 的 数组 
形式 存在 的 ， 数 组 的 形式 可 以 看 作 ( 字 节 码 指令 在 co_code 中 位 置 ，source code 行 号 ) 形 
式 的 一 个 1ist。 比 如 对 于 下 面 的 例子 (网 表 7-2); 


表 7-2 





这 里 有 一 个 小 小 的 技巧 ，Python 不 会 直接 记录 这 些 信 息 , 但 是 ， 它 会 记录 这 些 信息 间 
的 增 量 值 ， 所 以 ， 对 应 的 co_1lnotab 就 应 该 是 : 0, 1 6 1, 44， $s 
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7.2.4 在 Python 中 访问 PyCodeObject 对 象 


在 Python 中 ， 有 与 C 一 级 的 pycoaeobject 对 象 对 应 的 对 象 一 一 code 对 象 ， 这 个 对 
象 是 对 C 一 级 的 RPycode0bject 对 象 的 一 个 简单 包装 ， 通过 code 对 象 ， 我 们 可 以 访问 
pyCodeObjiect 对 象 中 的 各 个 域 。 图 7-3 展示 了 如 何 通过 compile 内 建 函 数 获得 一 个 code 
对 象 ， 并 访问 其 中 的 属性 。 i compile 的 更 多 信息 ， 请 参阅 Pytbon 文档 。 


1E7ZECT) 





CM Mbtp Mr "OG 
Naw "yy 4 reduce reduce ex 
CO rc, ‘eo ce Varsr, YCB code', 


S, "co firstiineno', ‘eo flags', ‘Co freavars’, ‘co _lnd 
es', ‘co :Niocals’, ‘co stacksize", ‘Co varnames"] 

>>> Print C0.c0 names 

€ +h? Fun” + } 

>>> PriNE CO.CO Name 

<modlile> 

>>> Print coco filenanme 

dam? .py 


图 7-3 在 Python 中 访问 PyCodeObject 对 象 中 的 信息 
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7.3.1 创建 pyc 文件 的 具体 过 程 


前 面 我 们 提 到 , Python 在 通过 import 对 module 进行 动态 加 载 时 , 如 果 没 有 找到 相应 
的 pyc 文件 或 dll 文件 ， 就 会 在 py 文件 的 基础 上 自动 创建 pyc 文件 ,那么 ， 要 想 了 解 pyc 
的 格式 到 底 是 什么 样 的 ， 我 们 只 需 考 察 Python 在 将 编译 得 到 的 Bycoedeobject 写 入 到 pyc 
文件 中 时 到 底 进行 了 怎样 的 动作 就 可 以 了 。 代 码 清单 7-1 的 函数 就 是 我 们 的 切入 点 。 


全 和 
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从 write_compiled_module 中 可 以 发 现 , 一 个 pyc 文件 中 实际 上 包含 了 三 部 分 独立 的 信 
息 : Python 的 magic number、pyc 文件 创建 的 时 间 信 息 ， 以 及 PycodeObject 对 象 。 

首先 在 代码 清单 7-1 的 [中 处 ， 我 们 看 到 Python 会 将 pyc_magic 这 个 值 写 入 到 文件 的 
开头 。 实际 上 ， pyc_magic 是 Python 所 定义 的 一 个 站 数值 一般 来 说 ,不 同 版 本 的 Python 
实现 都 会 定义 不 同 的 magic number， 这 个 值 就 是 用 来 保证 Python 兼容 性 的 。 比 如 说 要 防 
止 Python 2.5 的 运行 环境 加 载 由 Python 1.5 产生 的 pyc 文件 ， 那 么 只 需要 将 Python 2.5 和 
Python 1.5 的 magic number 设 为 不 同 的 值 就 可 以 了 , 因为 Python 在 加 载 pyc 文件 时 会 首先 
检查 这 个 magic number， 如 果 发 现 Python 自身 的 magic number 与 待 加 载 的 pyc 文件 中 记 
录 的 magic number 不 同 ， 则 会 拒绝 加 描 不 兼容 的 pye 文件 。 

这 里 出 现 了 一 个 问题 ，pyc 文件 为 什么 会 不 兼容 了 ? 最 主要 的 原因 是 字 节 码 指令 的 变 
化 ， 由 于 Python 一 直 在 不 类 地 改进 ， 有 一 些 字 节 码 指令 退出 了 历史 揪 台 ， 比 如 上 面 提 到 
的 sgT_LINENO; 而 另 一 些 新 的 语法 特性 会 导致 加 入 新 的 字 节 码 指令 .这 些 都 会 导致 Python 
的 不 兼容 问题 。 


在 import.c 中 ， 可 以 在 源 代码 的 注释 里 找到 从 Python 1.5 到 Python 2.5 所 有 版 本 的 
magic number， 我 们 可 以 看 一 看 Python 2.5 所 定义 的 magic number: 


名 









static Iong pycmagic = MAGIG; Li js us 

在 pyc 文件 中 ， 紧 接着 magic number 的 是 pyc 文件 创建 的 时 间 人 信息， 代码 清 单 7-1 的 
[2] 处 完成 了 向 pyc 文件 写 入 时 间 信 息 的 动作 。 在 pyc 文件 中 包含 时 间 信 息 可 以 使 Python 
自动 将 pyc 文件 与 最 新 的 py 文件 进行 同步 。 

假如 在 早上 9 点 我 们 将 demo.py 文件 编译 成 了 demo.pyc 文件 ， 在 下 午 3 点 时 ， 我 们 
修改 了 demo.py, 当 Python 执行 修改 后 的 demo.py 时 , 因为 存在 demo.pyc 文件 ,所 以 Python 
会 首先 尝试 加 载 demo.pyc， 在 加 载 的 过 程 中 ，Python 会 发 现 pyc 文件 的 时 间 早 于 py 文件 
的 时 间 ， 于 是 就 会 自动 重新 编译 demo.py， 生 成 新 的 demo.pyc。 需 要 指出 的 是 ，python 中 
写 入 时 间 的 真实 动作 并 不 是 如 代码 清单 7-1 的 [2] 所 示 ， 为 了 描述 的 简便 ， 我 们 修改 了 这 里 
的 代码 ， 有 兴趣 的 读者 可 以 参阅 Python 的 源 代码 。 

在 代码 清单 7:1 的 [3] 处 ，Python 将 内 存 中 的 pycodeobject 对 银 写 入 了 pyc 文件 ， 完 
成 了 pyc 文件 的 创建 工作 。 
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在 write_compiled_module 中 , 向 pyc 文件 写 入 数据 的 动作 最 后 会 集中 到 下 面 所 示 的 几 
个 函数 中 。 在 这 里 ， 我 们 假设 代码 只 处 理 写 入 到 文件 ， 即 5=>fp 是 有 效 的 情况 。 因此 我 们 
be 删 减 部 分 ， 请 参考 Python 源 代码 。 








在 调用 pyMarshal_writeLongToFile 时 ， 会 直接 调用 w_long，w_long 会 将 需要 写 
入 的 数据 一 个 字 节 一 个 字 节 地 写 入 到 文件 中 。 而 在 调用 ByMarshal_writeobjectTorile 
时 ,Python 会 借助 于 另 一 个 辅助 的 函数 w_object 来 完成 将 Bycodeobject 对 象 写 入 到 pyc 
文件 中 的 操作 。 要 特别 注意 的 是 pywMarshal_WriteObjecEToFile 的 第 一 个 参数 ， 这 个 参 
数 正 是 Python 编译 出 来 的 PycodeObject 对 象 。 

w_object 的 代码 非常 长 ， 这 里 就 不 全 部 列 出 。 实 际 上 ，w_object 的 逻辑 非常 简单 ， 
就 是 对 应 不 同 的 对 象 ， 比 如 string、int、1ist、dict 等 ， 会 有 不 同 的 写 的 动作 ， 然而 
其 最 终 目的 都 是 通过 最 基本 的 w_long 或 w_string 将 整个 pycodeohbject 写 入 到 pyc 文 
件 中 。 换 名 话说 ,Python 在 向 pyc 文件 中 写 入 一 个 1ist 对 和 象 时 ， 其 实 只 是 将 1ist 中 所 包 
含 的 数值 或 字符 串 写 入 了 pyc 文件 中 ; 同时 这 也 意味 着 ，Python 在 加 载 pye 文件 时 ， 必 须 
基于 这 些 数值 或 字符 串 重 新 构造 出 1ist 对 象 。 

对 于 pycodeobject， 很 显然 ,，w_object 会 遍历 Eycodaeobject 中 的 所 有 域 ， 将 这 些 
La 
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错 ， 如 同 面 对 pycodeobject 一 样 ，w_object 还 是 遍历 ， 将 pyListobject 对 和 象 中 的 每 
一 个 元 素 依次 写 入 到 pyc 文件 中 : 





细心 的 你 一 定 注意 到 了 ，w_object 毫 无 例外 地 都 会 在 写 入 对 象 之 前 ， 先 写 入 一 个 
TYPE_LITST、TYPE_CODE， 或 者 是 TYPE_INT 这 样 的 标识 。 这 些 标志 对 于 pye 文件 的 再 次 
加 载 具 有 至 关 重 要 的 作用 。 


在 前 面 我 们 就 已 经 提 到 过 ，Python 最 终 仅仅 会 将 数值 和 字符 串 写 入 到 pye 文件 中 。 当 
PyCodaObject 对 象 写 入 到 pyc 文件 之 后 ， 所 有 的 数据 都 变 成 了 字 节 流 ， 类 型 信息 丢失 了 5 
如 果 没 有 类 型 信息 ，Python 青 次 加 载 pye 文件 时 ， 就 再 也 没有 办 法 知道 这 些 字 节 流 中 隐藏 
的 结构 和 蕴含 的 信息 了 ,所 以 Python 必须 将 对 象 的 类 型 信息 也 写 入 到 pyc 文件 中 , 这些 标 
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识 正 是 Python 定义 的 类 型 信息 ， 如 果 Python 在 pye 文件 中 发 现 这 样 的 标识 ， 则 预示 着 上 
一 个 对 象 结束 ， 新 的 对 象 开始 ， 而 且 也 知道 了 新 对 象 是 什么 类 型 的 对 象 。 只 有 这 样 ， 当 
Python 加 载 pye 文件 时 ， 加 载 器 才能 知道 在 什么 时 候 应 该 进行 什么 样 的 加 载 动作 。 

这 些 标识 同样 也 是 在 import.c 中 定义 的 : 








oO ‘ 
村. EL- 
Id 与 4 出 | 1 





到 了 这 里 ， 可 以 看 到 ，Python 对 于 Pycodeobject 对 象 的 导出 动作 其 实 是 不 复杂 的 。 
实际 上 在 write 的 动作 中 ， 不 论 面临 pycodeobject 还 是 PyListObject 这 些 复 灯 对 象 ， 
最 后 都 会 归结 为 简单 的 两 种 形式 ， 一 个 是 对 数值 的 写 入 ， 一 个 是 对 字符 串 的 窟 入 。 上 面 其 
实 已 经 看 到 了 对 数值 的 写 入 过 程 , 对 数值 的 写 入 非常 简单 , 仅 仪 需 要 按 字 节 依 次 写 入 到 pyc 
文件 中 即 可 。 而 在 写 入 字符 串 时 ，Python 则 设计 了 一 套 比较 复杂 的 机 制 。 


7.3.2 向 pyc 文件 写 入 字符 串 


在 了 解 Python 如 何 将 字符 串 写 入 到 pye 文件 中 的 机 制 前 ,我 们 首先 需要 介绍 一 个 在 写 
入 过 程 中 关键 的 结构 体 WEILE (有 删节 ); 






这 里 我 们 也 只 考虑 fp 有 效 的 情况 ， 即 写 入 到 文件 中 。 这 时 ，wgztg 可 以 看 作 是 一 个 
对 FTLB* 的 简单 包装 , 但 是 在 weILE 里 ， 出 现 了 一 个 奇特 的 strings 域 。 这 个 域 是 Python 
问 pyc 文件 中 写 入 字符 串 或 从 其 中 读 出 字符 串 的 关键 所 在 ， 当 向 pyc 中 写 入 时 ，strinas 会 
指向 一 个 PyDictobject 对 象 ; 而 从 pyc 中 读 出 时 ，strings 则 会 指向 一 个 pyEistobjeet 
对 象 。 

我 们 先 来 看 一 看 Python 将 字符 串 写 入 到 pyc 文件 的 过 程 ; 





Python 源 到 出 所 一 深度 其 和 动态 得 党 由 心 花 状 








7.3 ”Pyc 文件 的 生成 二 ”125 





可 以 看 到 ,WFILE 的 strings 在 真正 开始 将 Pycodeobject 写 入 到 pyc 文件 之 前 ， 就 
已 经 被 创建 了 。 在 w_5pbjec 中 对 于 字符 串 的 处 理 部 分 , 我 们 可 以 看 到 对 strings 的 使 用 
( 见 代 码 清 单 7-2)。 
代码 清单 7-2 






在 向 pyc 文件 中 写 入 一 个 字符 串 时 ， 可 能 会 发 生 3 种 情况 。 第 一 种 情况 是 写 入 一 个 普 
通 的 字符 串 ， 这 时 的 处 理 就 非常 简单 了 ， 先 是 写 入 字符 串 的 类 型 标识 rzpB_sSTRING， 然 后 
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调用 w_long 写 入 字符 串 的 长 度 ， 最 后 通过 w_string 写 入 字符 串 本 身 。 这 一 切 在 代码 清 
单 7-2 的 [相处 完成 。 


在 普通 字符 串 之 外 ，Python 还 会 磁 到 写 入 需要 在 以 后 加 载 pyc 文件 时 进行 intern 操作 
的 字符 串 。 对 这 种 字符 串 ， 又 会 分 为 首次 写 入 和 非 首 次 写 入 的 情况 ， 这 就 是 Python 在 写 
入 字符 串 时 会 遇 到 的 另外 两 种 情况 ;intern 字符 串 的 首次 写 入 和 intern 字符 串 的 非 首 次 写 
入 。 


为 了 理解 这 两 种 情况 的 区 别 ， 我 们 需要 了 解 WwFILE 结构 中 的 strings 域 在 Python 问 
pyc 文件 写 入 字符 串 的 过 程 中 究竟 扮演 了 一 个 怎样 的 角色 。 实 际 上 ， 之 前 我 们 已 经 看 到 ， 
WFILE 中 的 strings 会 在 PyMarshal WriteObiectTorile 中 被 设置 为 指向 一 个 通过 
pyDict_New 创建 的 PyDictObject 对 象 。 在 strings 所 指向 的 这 个 PypictObject 对 象 中 ， 
实际 上 维护 着 (UPyStcrzindobjesct， pyIintObject ) 这 样 的 映射 关系 。 那么 这 个 pyintObiect 
对 象 的 值 是 什么 呢 ? 这 个 值 表 示 的 是 对 应 的 pystringobject 对 象 是 第 几 个 被 加 入 到 
wrPILE.strings 中 的 字符 囊 , 更 准确 地 说 , 是 第 几 个 被 写 入 到 pyc 文件 中 的 intern 字符 串 。 


Python 为 什么 需要 这 个 pyrtntobijiect 对 象 的 值 ， 看 上 去 似乎 有 些 裔 怪 ， 记 录 一 个 字 
符 串 被 加 入 到 wrTLE.strings 中 的 序号 有 什么 意义 呢 ? 好 ， 让 我 们 来 考虑 下 面 的 情形 。 


假设 我 们 需要 间 pyc 文件 中 写 入 3 个 string:“Jython”“Ruby”“Jython”， 人 而且 这 
3 个 string 在 以 后 pyc 文件 被 加 载 时 都 需要 进行 intern 操作 。 对 于 前 两 个 string， 没 有 
任何 问题 , 按照 代码 清单 7-2 的 [3] 处 的 动作 , 闭 着 眼睛 写 入 就 是 了 , 完成 了 前 两 个 string 
的 写 入 后 ，WEILE.strings 与 pyc 文件 的 情况 如 图 7-4 所 示 : 


pye file 
ee pe [hon A Roby) | 


注意 ，pyc 文件 中 的 括号 和 过 号 是 为 了 方便 理解 所 添加 . 
图 7-4 写 入 “Jython” 和 “Ruby” 之 后 的 pyc 文件 


在 写 入 第 3 个 字符 车 的 时 候 , 麻烦 来 了 。 对 于 这 个 “yython” 我 们 应 该 怎么 处 理 了 昵 ? 
是 按照 上 两 个 string 一 样 吗 ? 如 果 这 样 的 话 ， 写 入 后 ，WEILE. strings 和 pyc 的 情况 如 
图 7-5 所 示 ; 


pyc file 
on 
= | -| ,tt ©, Sthon)tt, 4, Ruby) (t, 6, Jython) 
ro 


图 7-5 ”强行 第 二 次 写 入 “Jython” 后 的 pyc 文件 


我 们 先 不 管 pyDictobject 可 不 可 能 实现 图 7-5 中 所 展示 的 strings， 因 为 不 可 能 有 相 
同 的 键 出 现 。 不 看 strings， 只 是 看 一 看 pyc 文件 ， 我 们 就 知道 ， 问 题 来 了 。 在 pyc 文件 
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中 ,出 现 了 重复 的 内 容 ， 关 于 “ythen” 的 信息 重复 了 两 次 ， 这 会 引起 什么 麻烦 呢 ? 想象 
一 下 在 Python 代码 中 , 我 们 定义 了 符号 button, 就 假设 一 个 变量 名 为 putton, 在 此 之 后 ， 
我 们 又 在 多 处 使 用 了 button 这 个 变量 。Python 在 对 pyc 文件 进行 写 入 时 ， 需 要 将 变量 名 
也 写 入 到 pyc 文件 中 。 这样， 在 pye 文件 中 ,“button” 将 出 现 多 次 。 想 象 一 下 吧 ， 我 们 的 
pyc 文件 会 变 得 多 么 胶 肿 ， 而 其 中 充斥 的 只 蚌 毫 无 价值 的 元 余 信息 。 如 果 你 是 Python 的 设 
计 者 ,你 能 忍受 这 样 的 设计 吗 ? 当然 不 能 .于 是 Python 的 设计 者 给 了 我 们 TYPE_STRINGREF 
这 个 东西 。 在 解析 pyc 文件 时 ， 这 个 标志 表 骨 后 面 的 一 个 数值 表示 了 一 个 索引 值 ， 根 据 这 
个 索引 值 到 WFILE.strings 中 去 查找 ， 就 能 找到 需要 的 string 了 ， 这 一 点 ， 在 后 面 我 们 
会 看 得 更 清楚 。 


有 了 TYPE_STRINGREF， 我 们 的 pyc 文件 就 能 变 得 苗条 了 ， 如 图 7-6 所 示 : 


Pye fie 
on | 


图 7-6 采用 了 TYPE_STRINGREF 后 的 pyc 文件 


好 了 ， 为 了 对 这 个 过 程 有 一 个 更 清晰 的 了 解 ， 我 们 来 总 结 一 下 。 对 于 一 个 intern 字符 
串 ，Python 会 首先 于 代码 清单 7-2 的 [1] 处 在 strings 中 查找 其 中 是 否 已 经 记录 了 该 字符 
串 ， 这 个 查找 动作 会 导致 两 个 结果 。 
1. 查找 失败 , 流程 转移 到 代码 清单 7-2 的 [3] 处 , Python 进入 intern 字符 串 的 首次 写 入 ， 
在 首次 写 入 时 ，Python 会 进行 两 个 独立 的 动作 ， 
> ”将 (字符 串 ， 序 号 ) 添加 到 strings 中 ; 
> ”将 类 型 标识 TYPE_INTERND 和 字符 串 本 身 写 入 到 pyc 文件 中 。 
2. 查找 成 功 , 流程 转移 到 代码 清单 7-2 的 [2] 处 , Python 进入 intern 字符 串 的 非 首 次 写 入 ， 
这 时 ，Python 仅仅 只 是 将 类 型 标识 TYPE_sTRINGREF 和 查找 得 到 的 序号 写 入 到 pyc 
文件 中 。 


到 了 这 里 ,我 们 有 些 迷 惑 了 ,好 吧 , 看 上 去 记录 字符 串 插 入 strings 的 序号 好 像 有 些 
道理 ， 但 是 既然 strings 是 个 pyDictobject 对 象 ， 而 我 们 知道 ，pyDictobject 对 象 是 
绝对 没有 索引 访问 的 能 力 的 ， 那 么 这 个 序号 究竟 还 有 什么 用 呢 ? 

没 错 ， 这 个 被 记录 的 序号 ， 在 写 入 pyc 的 过 程 中 ， 癌 无 用 处 。 真 正 有 趣 的 是 ， 这 个 被 
记录 的 序号 是 用 于 加 载 pyc 文件 的 过 程 的 。 而 更 加 有 趣 的 是 ， 在 加 载 pyc 文件 时 ， 我 们 同 
样 会 用 到 wFILE， 而 这 时 strings 再 也 不 是 一 个 pyDictobjact 对 象 ， 而 是 一 个 
PyListobiect 对 象 了 。pyListobject 是 支持 索引 访问 的 ， 是 不 是 有 些 明 了 了 ? 
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看 一 下 加 载 pyc 文件 的 过 程 , 就 能 对 这 个 机 制 更 加 地 明了 。 前 面 我 们 提 到 , 在 读 入 pyc 
文件 时 ，WFILE.strings 将 是 一 个 ByListobject 对 象 ， 这 一 点 在 pyMarshal_Read- 
objectFrompile 中 可 以 看 到 。 


1 1 
aoazan2 
7 






| Iriel | 了 

Python 进入 r_object 之 后 ， 就 开始 从 pyc 文件 中 读 入 数据 ， 并 创建 pvcoaecbjecr 
对 和 象 ， 这 个 =_ocbject 是 w_object 的 道 运算 ， 所 以 ， 你 应 该 可 以 猜想 得 到 它 的 整个 流程 
全 

当 Python 读 到 了 TYPE_INTERND 后 ,会 将 其 后 的 字符 串 读 入 ,将 这 个 字符 串 进行 intern 
操作 ， 同 时 将 intern 操作 的 结果 添加 到 strings 这 个 PyListobject 中 。 

随后 , 当 Python 从 pye 文件 中 读 到 TyPE_smRINGREE 时， 会 根据 其 后 跟随 的 序号 值 访 
问 strings， 从 而 就 获得 了 已 经 进行 了 intern 操作 的 pystringobject 对 象 。 
所 以 在 读 入 前 两 个 字符 串 后 ，WFILE .strings 的 情形 如 图 7-7 所 示 : 


pyc fite 


yhont 4 Ru RD | 


注 : 粗 体 部 分 表示 已 经 加 载 的 部 分 
图 7-7 加 载 “Jython” 和 “Ruby” 之 后 的 WFILE.strings 
在 加 载 紧 接着 的 (R，0) 时 ， 因 为 解析 到 是 一 个 TrypE_sTRINGREF 标志 ， 所 以 直接 以 
标志 后 面 的 数值 0 位 索引 访问 wFTLS .strings， 立 刻 可 得 到 字符 囊 “Jython”。 


7.3.3 一 个 PyCodeObject， 多 个 PyCodeObject 


到 了 这 里 ， 关 于 Pycodeobject 与 pyc 文件 ， 出 现 了 一 个 有 趣 的 问题 。 还 记得 前 面 那 
个 demo.py 吗 ? 我 们 说 那 段 简单 到 什么 都 做 不 了 的 python 代码 就 要 产生 3 个 Pycodeobject。 
而 在 write compiled module 中 我 们 又 亲眼 看 到 ， Python 运行 环境 只 会 对 一 个 
PyCodeObject 对 象 调用 PyMarshal_WriceobjectToFile 操作 。 和 刹那 间 ， 我 们 竟然 看 到 
了 两 个 遗失 的 Pycodeobject 对 象 。 

Python 显然 不 会 犯 这 样 低级 的 错误 ， 想象 一 下 ， 如 果 你 是 Python 的 设计 者 ， 这 个 问 
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题 该 如 何 解 决 ? 很 自然 地 ， 我们 会 假想 ， 有 两 个 pycodeobject 对 象 一 定 是 包含 在 另 一 个 
pycodeobject 中 的 。 没 错 ， 确 实 如 此 ， 还 记得 我 们 最 开始 指出 的 Python 是 如 何 确定 一 个 
Code Block 的 吗 ? 对 喉 ， 就 是 名 字 空 间 。 仔 细 观 察 一 下 demo.py， 你 会 发 现在 源 文件 中 作 
用 域 就 呈现 出 一 种 典 套 的 结构 ， 这 种 结构 也 正 是 pycodeobject 对 象 之 间 的 结构 。 所 以 到 
现在 清楚 了 ， 与 Fun 和 A 对 应 的 Pycodeobject 对 象 一 定 是 包含 在 与 demo.py 对 应 的 
PyCodeOQbiject 对 和 象 中 的 ， 而 PyCodeObijeoct 结构 中 的 CO_consts 域 正 是 这 两 个 PyCode- 
object 对 象 的 藏身 之 处 ， 如 图 7-8 所 示 : 


| : FyCodeObject 对 旬 
图 7-8 PyCodeObject 对 象 之 间 的 嵌 套 结构 
在 对 一 个 pycodeobject 对 象 进行 写 入 到 pyc 文件 的 操作 时 ， 如 果 磁 到 它 包 含 的 另 一 
个 Pycodeobject 对 象 , 那么 就 会 递归 地 执行 写 入 pycodeobject 对 象 的 操作 。 如 此 下 去 ， 
最 终 所 有 的 Prvcodeobject 对 象 都 会 被 写 入 到 pyc 文件 中 去 。 所 以 ，pyc 文件 中 的 pycode- 
Object 对 象 也 是 以 一 种 嵌 套 的 关系 联系 在 一 起 的 。 


这 种 嵌 套 的 关系 意味 着 pyc 文件 中 的 二 进 制 数据 实际 是 一 种 有 结构 的 数据 ， 这 种 结构 
化 性 质 预 示 着 我 们 能 够 以 XML 的 形式 来 将 pyc 文件 进行 可 视 化 。 马上 ， 你 就 可 以 看 到 这 
一 激动 人 心 的 结果 。 


7.4 Python 的 字 节 码 


关于 Python 的 编译 结果 ， 我 们 还 剩 下 最 后 一 个 话题 了 ， 那 就 是 Python 的 字 节 码 。 这 
里 并 不 会 对 Python 字 节 码 进行 详细 的 介绍 ， 这 一 部 分 将 是 我 们 在 以 后 的 章节 中 对 Python 
虚拟 机 剖析 时 的 重点 。 现 在 我 们 仅仅 对 Python 字 节 码 做 一 个 粗略 的 介绍 。 不 管 怎么 说 ， 
现在 也 应 该 和 它们 打 个 招呼 了 。 


我 们 知道 ，Python 源 代码 在 执行 前 会 被 编译 为 Python 的 字 节 码 指令 序列 ，Python 虚拟 
机 就 是 根据 这 些 字 节 码 来 进行 一 系列 的 操作 ， 从 而 完成 对 Python 程序 的 执行 。 在 Python 2.5 
中 ， 一 共 定义 了 104 条 字 节 码 指令 : 
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所 有 这 些 字 节 码 的 操作 含义 在 Python 自 带 的 文档 中 有 专门 的 一 页 进行 描述 ， 当 然 ， 
也 可 以 到 下 面 的 网 址 察看 ，httpyidocs.python.org/lib/bytecodes.html。 

细心 的 你 一 定 发 现 了 ， 虽 然 Python 2.5 中 只 定义 了 104 条 字 节 码 指 令 ， 但 是 字 节 码 指 
令 的 编码 却 到 了 143， 似 乎 字 节 码 指令 的 编码 有 跳跃 。 没 错 ，Python 2.5 中 字 节 码 指令 的 
编码 并 没有 按 顺 序 增长 ， 比 如 编码 为 $ 的 Rom_FOUR 指令 之 后 就 是 编码 为 9 的 NGOP 指令 。 
这 可 能 是 历史 遗留 下 来 的 ， 你 知道 ， 在 咱们 这 行 ， 历 史 问 题 可 不 怎么 好 处 理 ， 搞 得 现在 还 
有 许多 人 不 得 不 很 郁闷 地 面 对 MFC @。 

在 Python 2.5 的 104 条 字 节 码 指令 中 ， 有 一 部 分 是 需要 参数 的 ， 另 一 部 分 是 没有 参数 
的 。 所 有 需要 参数 的 字 节 码 指令 的 编码 都 大 于 或 等 于 90。Python 中 提供 了 专门 的 宏 来 判 
断 二 二 
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7.5 解析 pyc 文件 


好 了 ， 到 了 现在 ， 关 于 pycodeobject 和 pyc 文件 的 一 切 我 们 都 已 了 如 指 掌 了 。 前 面 
我 们 提 到 ， 基 于 我 们 对 pyc 文件 的 了 解 ， 可 以 做 一 些 非常 有 趣 的 事 了 。 呢 ， 说 铅 了 ， 就 是 
自己 写 一 个 pyc 文件 解析 器 ， 以 XML 的 形式 输出 解析 结果 ， 将 pyc 文件 可 视 化 ， 没 错 ， 
利用 我 们 现在 所 知道 的 一 切 ， 我 们 真 的 可 以 这 么 做 了 。 在 本 书 附 带 的 代码 中 有 一 个 名 为 
PycParser 的 工程 ， 在 其 中 实现 了 将 pyc 文件 转换 为 可 视 的 XML 文件 的 一 个 简单 的 方法 。 
图 7-9 展现 的 是 Ppp 对 本 章 前 面 的 那个 demo.py 的 解析 结果 。 


TYC 和 | 
= GN 
SrQCounr valye™="0" /> 
RiocnjiCount value="0" 1> 
ackSlse Yi=737 /> 





<sty not ="48" walue="binary" /> 
</tode> 
~ CONOtS > 
<IntemSts II 0” erottr="d" valie="A" /> 
+ vodechbject> 


Rir npnthe 25" value"F:\PythonBook\Src\damo.py" /> 





图 7-9 PycParser 的 解析 结果 
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图 7-9 中 显示 的 是 pyc 文件 中 的 第 三 部 分 一 Pycodeobject。 可 以 看 到 ， 在 pycode- 
object 对 象 的 co_consts 中 ， 包含 了 另外 的 pyCodeObject 对 象 ， 同时 还 包含 了 别 的 对 
象 ， 实 际 上 在 co_consts 中 ， 包 含 了 Python 源 文 件 中 所 定义 的 所 有 常量 对 象 。 所 谓 常量 
对 象 ， 就 是 除了 一 些 pystringobject 对 象 之 外 的 所 有 对 象 ， 因 为 有 的 pystringobject 
对 和 象 是 作为 符号 存在 的 ， 这 些 符号 通常 保存 在 co_names 和 co_varnames 中 ， 如 图 7-10 
所 示 。 

~ <Names> 


<strRef index="0" value="A" /> 
<strRef Index="3" value="Fun" /> 


<internsStr index="4" length="1" value="a" /> 
</names> 





图 7-10 demo.pyc 中 的 符号 表 (co_names) 和 局 部 变量 表 (co_varmames) 
对 照 demo.py, 你 会 发 现 这 些 对 象 都 是 其 中 定义 的 对 象 的 名 字 。 可 以 看 到 , 其 实 co_names 
和 co_varnames 之 间 是 有 区 别 的 ，co_names 中 会 记录 所 有 的 符号 ， 而 co_varnames 中 ， 
所 记录 的 则 是 所 有 用 于 局 部 变量 的 符号 。 在 Python 2.4.3 中 ， 这 里 的 co_varnames 是 和 
co_names 一 样 的 ， 同 样 包含 A，Fun，a 这 三 个 符号 ， 但 是 在 Python 2.5 中 ， 这 一 点 被 改 
变 洒 ， 


将 图 7-9、 图 7-10 与 表 7-1 中 对 pycodeobject 对 象 各 个 域 的 描述 对 照 参 考 ， 就 能 更 
好 地 理解 eycoedeobject 对 象 中 主要 的 域 所 包含 的 信息 了 。 


到 了 现在 ， 更 进一步 ， 我 们 还 可 以 解析 字 节 码 指令 序列 。 前 面 我 们 已 经 知道 ，Python 
在 生成 pyc 文件 时 ， 会 将 pycedeobject 对 象 中 的 字 节 码 指 令 序 列 也 写 入 到 pyc 文件 中 ， 
而 且 这 个 pyc 文件 中 还 记录 了 每 一 条 字 节 码 指令 与 Python 源 代码 行 号 的 对 应 关系 ,， 咽 , 就 
是 那个 cc_lnotab 啦 。 假 如 现在 我 们 知道 了 字 节 码 指令 在 co_code 中 的 偏 移 地 址 ， 那 么 
与 这 条 字 节 码 指令 对 应 的 Python 源 代码 的 位 置 可 以 通过 下 面 的 算法 (Python 伪 代 码 ) 得 
到 : 





下 面 是 从 一 段 Python 源 代码 对 应 的 Pycodeobject 解析 出 字 节 码 指令 序列 的 结果 , 这 
个 结果 也 将 作为 下 一 章 对 Python 虚拟 机 的 分 析 的 开始 : 
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事实 上 ，Python 标准 库 中 提供 了 对 python 的 code 对 象 进行 解析 的 工具 dis，dis 提供 
一 个 名 为 dis 的 方法 ， 这 个 方法 接收 一 个 code 对 象 ， 然 后 会 输出 code 对 象 里 的 字 节 码 指 
令 信息 。 利 用 这 个 工具 ， 可 以 很 容易 地 得 到 我 们 在 这 里 得 到 的 结果 ， 当 然 ， 还 要 更 详细 一 
些 ， 图 7-11 展示 了 利用 dis 工具 对 declare. py 进行 解析 的 结果 ， 


>>> 3 = vpen( declare.py sadl 
>>> Ce = compilel(s; :declate. py? ‘ "exec’) 
>>> import dis 
>>y dis.distco) 
1 0 LOAD CONST 
3 STORE NAME 
6 LOAD CONST 
9 STORE NAME 


12 BUILD MRP 
15 STORE NAME 


18 BUIDD 了 TS 人生 
2 和 STORE | _ NAME 
24 LORD CoNgT 
27 RETURN VALUE L 
7-11 利用 dis 工具 对 declare.py 对 应 的 code 对 象 进行 解析 
在 图 7-11 显示 的 结果 中 ， 最 左面 一 列 显示 的 是 字 节 码 指令 对 应 的 源码 在 declare.py 中 
的 行 数 , 左 起 第 2 列 显示 的 是 当前 的 字 节 码 指 令 在 co_code 中 的 偏 移 位 置 , 第 3 列 显 示 了 
当前 的 字 节 码 指令 ， 最 后 一 列 显 示 了 当前 字 节 码 指令 的 参数 。 
在 以 后 的 分 析 中 ， 我 们 大 部 分 将 采用 dis 工具 的 解析 结果 ， 在 有 些 特 殊 情 况 下 会 使 用 
我 们 自己 的 解析 结果 。 
到 达 的 地 方 出 发 ， 我 们 就 可 以 做 出 一 个 Python 的 执行 引擎 了 ， 嘿 ， 这 是 多 么 激动 人 心 的 
事 啊 。 遥 远 的 天 空 ， 一 抹 朝 阳 ， 缓 缓 升 起 了 。 
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从 本 章 开 始 ， 我 们 将 切入 Python 字 节 码 虚 拟 机 ， 深 入 剖析 Python 字 节 码 嵌 拟 机 的 运 
行 机 理 。 在 以 后 提 及 Python 字 节 码 虚拟 机 时 ， 我 们 可 能 会 根据 不 同情 况 使 用 虚拟 机 或 
Python 虚拟 机 等 名 称 。 

Python 的 虚拟 机 是 Python 的 核心 ,在 .py 源 代码 被 编译 器 编译 为 字 节 码 指 令 序 列 之 后 ， 
就 将 由 Python 的 虚拟 机 接手 整个 工作 。Python 的 虚拟 机 会 从 编译 得 到 的 pycodeobject 
对 象 中 依次 读 入 每 一 条 字 节 码 指令 ， 并 在 当前 的 上 下 文 环 境 中 执行 这 条 字 节 码 指令 。 如 此 
反复 运行 ， 所 有 由 Python 源 代 码 所 规定 的 动作 都 会 如 期 望 一 样 ， 一 一 展开 。 


8.1 Python 虚拟 机 中 的 执行 环境 


Python 的 虚拟 机 实际 上 是 在 模拟 操作 系统 运行 可 执行 文件 的 过 程 , 如 果 对 可 执行 文件 
的 运行 机 理 有 一 个 大 致 的 了 解 ， 那 么 对 于 理解 Python 虚拟 机 的 运行 机 理 是 相当 有 益 的 。 
因此 ， 在 进入 Python 的 虚拟 机 之 前 ， 我 们 先 来 看 一 看 在 普通 的 x86 的 机 器 上 ， 可 执行 文 
件 是 以 一 种 什么 方式 运行 的 。 在 这 里 ， 我 们 主要 关注 和 运行 时 栈 的 栈 帧 ， 如 图 8-1 所 示 : 
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调用 者 的 帧 


当前 帧 





图 8-1 可 执行 文件 运行 时 的 运行 时 栈 
图 8-1 所 展示 的 运行 时 栈 的 情形 可 以 看 作 是 如 下 的 C 代码 运行 时 的 情形 ， 











当 程 序 的 流程 进入 函数 让 时， 对 应 于 图 8-1。 其 中 “调用 者 的 帧 ”是 函数 z 的 栈 巾 ， 
而 “当前 帧 ” 则 是 函数 E 的 栈 帧 。 对 于 一 个 函数 而 言 ， 其 所 有 对 局 部 变量 的 操作 都 在 自己 
的 栈 帧 中 完成 ， 而 函数 之 问 的 调用 则 通过 创建 新 的 栈 帧 完成 。 

在 图 8-1 所 示 的 系统 中 ， 运 行 时 栈 是 从 地 址 空间 的 高 地 址 向 低地 址 延伸 的 。 当 在 函数 
9 中 执行 函数 三 的 调用 时 ， 系 统 就 会 在 地 址 空间 中 ， 于 g 的 栈 帧 之 后 ， 创 建 £ 的 栈 帧 。 当 
然 ， 在 函数 调用 发 生 时 ， 系 统 会 保存 上 一 个 栈 帧 的 栈 指针 esp 和 帧 指针 ebp。 当 函数 上 执 
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行 完成 之 后 ,系统 会 把 ssp 和 ebp 的 值 恢复 为 创建 5 的 栈 帧 之 前 的 值 ， 这 样 程 序 的 流程 又 
回 到 了 函数 g 中 ,而 程序 工作 的 空间 则 又 回 到 了 函数 g 的 栈 帧 中 。 这 就 是 可 执行 文件 在 x86 
机 器 上 的 大 致 运行 原理 。 而 Python 正 是 在 其 虚拟 机 中 通过 不 同 的 实现 方式 模拟 了 这 一 原 
理 ， 从 而 完成 了 Python 字 节 码 指令 序列 的 执行 。 如 果 你 对 这 个 过 程 不 是 太 清 晰 ， 不 要 紧 ， 
这 并 不 妨碍 你 对 后 面 内 容 的 理解 。 

上 一 章 的 剖析 表明 Python 源 代码 经 过 编译 之 后 ， 所 有 的 字 节 码 指令 以 及 程序 的 其 他 
静态 信息 都 存放 在 pycodeobject 对 象 中 , 那么 Python 的 虚拟 机 是 否 就 是 在 这 个 pycode- 
cbject 对 象 上 进行 所 有 的 动作 呢 ? 

答案 并 不 唯一 。PycodeobjecE 对 象 中 包含 了 最 关键 的 字 节 码 指令 ， 以 及 关于 程序 的 
所 有 静态 信息 。 然 而 有 一 点 ， 是 Bycodeobject 对 象 没 有 包含 ， 也 不 可 能 包含 的 。 这 就 是 
关于 程序 运行 的 动态 信息 一 一 执行 环境 。 

么 是 执行 环境 呢 ， 考 虑 下 面 的 一 个 例子 ， 


pyj 


1 省 












在 上 面 代码 中 的 1 和 2 两 个 地 方 ， 都 进行 了 同样 的 动作 ， 即 print i。 显 然 ， 它 们 所 
对 应 的 字 节 码 指令 肯定 是 相同 的 , 但 是 这 两 条 语句 的 执行 效果 是 不 同 的 。 这 样 的 结果 正 是 
在 执行 环境 的 影响 下 产生 的 。 在 执行 “1” 处 的 print 时 ， 执 行 环境 中 ，i 的 值 为 999; 而 
在 执行 2 处 的 print 时 ， 执 行 环境 中 i 的 值 为 “Python”。 像 这 种 同样 的 符号 在 程序 运行 
的 不 同时 刻 对 应 不 同 的 值 ， 甚 至 不 同类 型 的 情况 ， 必 须 在 运行 时 动态 地 被 捕捉 和 维护 。 这 
些 信息 是 不 可 能 在 Pycodeobject 对 象 中 被 静态 地 存储 的 。 bb 

细心 的 读者 一 定 发 现 了 , 这 里 的 执行 环境 和 我 们 之 前 所 提 到 的 名 字 空 间 似 乎 是 同一 个 
东西 。 它 们 确实 比较 相似 ， 但 是 ， 我 们 在 之 后 将 看 到 的 执行 环境 的 概念 并 不 完全 等 同 于 名 
字 空间 。 实 际 上 ， 名 字 空 间 仅仅 是 执行 环境 的 一 部 分 ， 除 了 名 字 空 间 ， 在 执行 环境 中 ， 还 
包含 了 其 他 的 一 些 信息 。 

结合 x86 平台 运行 可 执行 文件 的 机 理 ， 我 们 可 以 用 这 样 的 机 理 来 定性 地 解释 
environment.py 的 执行 过 程 。 当 Python 开始 执行 environment.py 中 的 第 一 条 表达 式 时 ， 
Python 已 经 建立 起 了 一 个 执行 环境 A， 所 有 的 字 节 码 指令 都 会 在 这 个 执行 环境 中 执行 。 
Python 可 以 从 这 个 执行 环境 中 获取 变量 的 值 , 也 可 以 根据 字 节 码 指令 的 指示 修改 执行 环境 
中 某 个 变量 的 值 ， 以 影响 后 续 的 字 节 码 指令 这样 的 过 程 会 一 直 持续 下 去 ， 直 到 发 生 了 函 
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数 的 调用 行为 。 

当 Python 在 执行 环境 A 中 执行 调用 函数 三 的 字 节 码 指令 时 ， 会 在 当前 的 执行 环境 A 
之 外 重新 创建 一 个 新 的 执行 环境 B， 在 这 个 新 的 执行 环境 B 中 ， 有 一 个 新 的 名 字 为 “i” 
的 对 象 。 这 个 新 的 执行 环境 B 实际 上 可 以 对 应 图 8-1 中 所 示 的 一 个 新 的 栈 帧 。 

所 以 在 Python 真正 执行 的 时 候 , 它 的 虚拟 机 实际 上 面 对 的 并 不 是 一 个 Bycodeopbject 
对 象 ， 而 是 男 一 个 对 象 一 PyFrameobject。 它 就 是 我 们 所 说 的 执行 环境 ， 也 是 Python 对 
x86 平台 上 栈 帧 的 模拟 。 你 瞧 ， 它 的 名 字 中 还 有 个 Frame 呢 @。 


8.1.1 ”Python 源码 中 的 PyFrameObject 


当然 ， 对 于 Python 而 言 ，PyFramecbject 对 象 不 仅仅 是 一 个 我 们 在 :x86 机 器 上 看 到 
的 那个 简 简单 单 的 栈 帧 , 它 实 际 上 包含 了 其 他 更 多 的 信息 ,请 看 Python 源码 中 对 PyFrame- 
object 的 定义 : 






从 E_back 我 们 可 以 看 出 一 点 ; 在 Python 实际 的 执行 中 , 会 产生 很 多 ByFrameObjecc 
对 象 ， 而 这 些 对 象 会 被 链接 起 来 ， 形 成 一 条 执行 环境 链表 。 这 正 是 对 x86 机 器 上 栈 帧 间 关 
系 的 模拟 。 在 x86 上 ， 栈 帧 间 通 过 esp 指针 和 ebp 指针 建立 了 关系 ， 使 新 的 栈 帧 在 结束 之 
后 能 顺利 回 到 旧 的 栈 帧 中 ， 而 Python 正 是 利用 £_bacx 来 完成 这 个 动作 。 那 真实 的 情况 是 
不 是 这 样 呢 ， 我 们 暂且 按 下 不 表 。 

在 f_code 中 存放 的 是 一 个 待 执行 的 pycodeobject 对 象 ， 而 接 下 来 的 £_builtins、 
f globals,、 £_locals 是 3 个 独立 的 名 字 空 间 ， 在 这 里 我 们 看 到 了 名字 空 间 和 执行 环境 之 
间 的 关系 。 前 面 我 们 说 名 字 空 间 实际 上 是 维 护 着 变量 名 和 变量 值 之 间 关系 的 pyDictObject 
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对 象 , 所 以 , 在 这 3 个 PyDictobject 中 , 分 别 维护 了 builtin 的 name、 global 的 name， 
以 及 local 的 name 与 对 应 值 之 间 的 映射 关系 。 在 下 一 节 ， 我 们 将 给 出 关于 和 名字 空间 的 详 
细 解 析 , 因为 它 对 于 理解 Python 虚拟 机 的 行为 相当 关键 。 想 想 前 面 的 那 段 environment.py， 
在 执行 print i 时， 首先 会 到 £f_locals 中 去 寻找 PEySstringobject 对 象 “找到 了 之 
后 ， 将 其 对 应 的 值 取出 ， 并 打印 出 来 。 


在 pyrrameObject 的 开头 ， 有 一 个 Pyobject_VaR_HERAD， 这 表明 PEPyframeobject 是 
-个 变 长 的 对 象 ， 即 每 次 创建 的 eyFrameopject 对 象 的 大 小 可 能 是 不 一 样 的 ， 这 些 变动 
的 内 存 是 用 来 做 什么 的 呢 ? 实际 上 ， 每 一 个 Pyframeobject 对 象 都 维护 了 一 个 Bycode- 
object 对 象 。 这 表明 每 一 个 PyFrame0bject 对 象 和 Python 源 代 码 中 的 一 段 Code 都 是 对 
应 的 ， 更 准确 地 说 ， 是 和 我 们 在 研究 pycodeobject 时 提 到 的 那个 Code Block 对 应 的 。 而 
在 编译 一 段 Code Block 时 ， 会 计算 出 这 段 Code Block 执行 过 程 中 所 需要 的 栈 空 间 的 大 小 
(注意 ， 这 个 栈 空间 才 是 和 x86 机 器 上 那个 用 于 函数 执行 的 栈 空间 相对 应 的 概念 )。 这 个 
栈 空间 的 大 小 存储 在 £_stacksize 中 ， 而 栈 本 身 正 是 那 段 变动 的 内 存 。 因 为 不 同 的 Code 
Block 在 执行 时 所 需 的 栈 空间 的 大 小 是 不 同 的 ， 所 以 决定 了 pyzrameobjeet 的 开头 一 定 有 
一 个 PyObject_VAR_HEAD。 


前 面 我 们 说 PyFxameObject 对 象 是 对 x86 机 器 上 单个 栈 帧 的 模拟 。 既 然 在 x86 的 单 
个 栈 帧 中 ， 包 含 了 执行 计算 所 必需 的 内 存 室 间 ， 为 什么 执行 计算 还 需要 内 存 空间 呢 ? 举 个 
例子 : 在 计算 c=a+b 时 ， 我 们 需要 将 a 和 的 值 分 别 读 入 内 存 ， 然 后 计算 的 结果 也 需要 在 
放 在 内 存 中 ， 这 些 内 存 就 是 执行 计算 所 必需 的 内 存 。 当 然 ， 在 x86 上 ， 完 成 一 条 加 法 操作 
只 需要 CPU 中 的 寄存 器 即 可 ,这 里 仅仅 展示 了 在 计算 的 过 程 中 是 需要 消耗 一 定 的 内 存 的 。 
所 以 作为 对 x86 栈 帧 的 模拟 ， 在 pyprameobject 中 ， 也 提供 了 对 这 些 内 存 空间 的 模拟 。 
在 今后 的 描述 中 ， 我 们 将 其 称 为 运行 时 栈 。 注 意 ， 一 定 要 将 这 里 的 “运行 时 栈 ” 的 概念 和 
x86 平 合 上 的 “运行 时 栈 ” 区 分 开 来 。 我 们 这 里 所 谓 的 “运行 时 栈 ” 单 指 运 算 时 所 需要 的 
内 存 空间 ; 


与 图 8-1 所 示 的 x86 平台 上 的 运行 时 栈 对 应 , 图 8-2 展示 了 Python 虚拟 机 在 运行 时 某 
个 时 刻 的 完整 运行 时 环境 。 





PyFrameObject 
图 8-2 Python 执行 的 某 个 时 刻 的 运行 时 环境 
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虽然 在 图 8-1 中 连续 的 内 存 空间 到 图 8-2 已 经 变 成 了 分 腐 的 内 存 空间 , 但 是 对 比 图 8-1 
和 图 8-2， 我 们 仍然 能 够 看 出 它们 之 间 的 相似 之 处 。 


8.1.2 ”PyFrameObject 中 的 动态 内 存 空间 


在 pgyFrameobject 对 象 所 维护 的 运行 时 栈 中 ， 存储 的 都 是 pyobject*， 可 以 看 出 ， 
这 个 栈 的 起 始 位 置 是 从 #_localsplus 开始 的 。 其 实 不 完全 正确 ，E localsplus 确实 维 
了 存 ， 但 二 和 闪光 丰 \ 只 是 给 栈 使 用 的 ， 还 有 别 的 对 象 也 会 使 用 ， 





可 见 ,在 创建 pyFrameobjiect 对 象 时 , 额外 申请 的 那 部 分 内 存 中 有 一 部 分 是 给 ,pycode- 
object 对 象 中 存储 的 那些 局 部 变量 的 、co_freevars、co_cellvars 使 用 的 【关于 
co_freevars、co_cellvars， 它们 涉及 Python 中 对 闭 包 的 实现 ， 在 以 后 考察 函数 机 制 时 
会 深入 剖析 )， 而 另 一 部 分 才 是 给 运行 时 栈 使 用 的 。 所 以 ，PyFrameobject 对 象 中 的 栈 的 
起 始 位 置 (也 就 是 栈 底 ) 是 由 £ valuestack 维护 的 ， 而 f_stacktop 维护 了 当前 的 栈 项 。 
图 8-3 是 一 个 刚 被 创建 的 pyFrameobject 对 象 的 示意 图 。 从 中 可 以 清晰 地 看 到 运行 时 栈 和 
PyFrameObject 对 象 中 动态 内 存 部 分 的 关系 。 
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图 8-3 新 创建 的 PyFrameObject 对 象 
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8.1.3 在 Python 中 访问 PyFrameObject 对 象 


是 Python 还 是 提供 了 某 种 途径 可 以 访问 到 ByFrameobject 对 象 。 在 Python 中 ， 有 一 种 
frame object， 它 是 对 CC 一 级 的 pyFrameQbject 的 包装 。 而 且 ， 非 常 幸运 的 是 ，Python 
提供 的 一 个 方法 能 方便 地 获得 当前 处 于 活动 状态 的 frame ocbject。 这 个 方法 就 是 sys 
module 中 的 _get frame 方法 。 

下 面 的 callecpy 演示 了 如何 利用 获得 当前 活动 的 frane object， 进 而 获取 调用 当前 
函数 的 函数 的 信息 : 





从 执行 的 结果 可 以 看 到 , 从 函数 £ 中 我 们 完全 获得 了 其 调用 者 一 一 函数 g 的 一 切 信息 ， 
甚至 包括 函数 g 的 各 个 名 字 空 间 。 

有 兴趣 的 读者 可 能 对 sys._gerframe 是 如 何 实现 的 很 感 兴趣 ， 下 面 我 们 就 给 出 一 个 
利用 Python 的 异常 机 制 实现 和 says._setframe 功能 相同 的 代码 。frame_getter.get_ 
current_frame 的 功能 和 sys ._getframe 的 功能 完全 一 样 。 
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8.2 名字、 作用 域 和 名 字 空 间 


上 一 节 在 pyFrameobiject 中 ， 我 们 看 到 了 3 个 独立 的 名 字 空 间 : local 名 字 空 间 、 
global 名 字 空 间 和 builtin 名 宇 空间 ,名 宇 空间 对 Python 来 说 , 是 一 个 非常 核心 的 概念 ， 
履 个 Python 虚拟 机 运行 的 机 制 与 “名 字 空 间 ” 这 个 概念 有 非常 紧密 的 联系 。 在 Python 中 ， 
与 名 字 空 间 这 个 概念 紧密 联系 着 的 还 有 “名 字 ”、 “作用 域 ” 这 些 概念 。 本 节 将 深入 地 介绍 
这 些 概念 在 Python 中 的 实现 或 作用 。 

在 本 节 中 ,我们 将 提 到 函数 、module、class 等 概念 。 尽管 这 些 部 分 将 在 以 后 的 章节 中 
才 会 被 剖析 ， 但 是 本 节 将 不 会 涉及 函数 、module、class 在 Python 中 是 如 何 实现 的 。 


8.2.1 ”Python 程序 的 基础 结构 一 一 module 


现实 中 的 Python 程序 通常 并 不 会 集中 在 一 个 巨大 的 .py 文件 中 。 相反 ,一般 来 说 ， 一 
个 Python 应 用 程序 总 是 由 多 个 ,py 文件 组 成 ， 每 一 个 :py 文件 中 包含 了 多 行 Python 中 的 表 
达 式 ， 每 一 个 .py 文件 被 称 Python 视 为 一 个 module。 这 些 module 中 ， 有 一 个 主 module， 
如 果 你 的 Python 应 用 程序 是 通过 python main.py 启动 的 ， 那 么 这 个 main.py 就 是 一 个 主 
module。 

Python 中 引入 module 的 概念 ， 其 主要 目 的 是 将 一 些 逻辑 相关 的 代码 放 到 一 个 module 
中 ， 以 备 日 后 使 用 ， 即 实现 代码 复 用 ; 而 另 一 个 目 的 则 是 为 粘 个 系统 划分 名 宇 空间 。 

一 个 名 字 《有 时 也 称 为 符号 ) 就 是 用 于 代表 某 些 事物 的 一 个 有 助 于 记忆 的 字符 序列 。 
在 Python 中 ， 一 个 标识 符 就 是 一 个 名 字 ， 比 如 变量 名 、 函 数 名 、 类 和 名 等 等 ， 这 些 都 是 名 
字 。 名 字 最 终 的 作用 不 在 于 名 字 本 身 ， 而 在 于 名 字 背 后 对 应 的 那个 事物 。 对 Python 这 类 
动态 诸 言 来 说 ， 名 字 的 意义 远 比 其 对 C 这 样 的 静态 语言 的 意义 大 ， 因 为 名 字 是 Python 在 
运行 时 能 够 找到 其 所 对 应 的 东西 的 唯一 途径 。 

在 Python 中 ， 要 使 用 或 执行 一 个 module， 必须 首先 加 载 一 个 module。 加 载 可 以 用 两 
种 方式 ; 一 种 是 一 般 module 的 加 载 , 通过 import 动作 进行 动态 地 加 载 ; 一 种 是 主 module 
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的 加 载 ， 道 过 python main.py 这 样 的 方式 完成 。 不 管 一 个 module 是 如 何 被 加 载 的 ， 在 
加 载 的 过 程 中 都 会 进行 一 个 动作 一 一 执行 module 中 的 表达 式 。 













本 ' 1 
~ val | 1 二 
AD na 1 0 
orint dH | i J BI ds 


在 module A 被 加 载 时 ，Pythonm 会 执行 “a = 1”、 “a += 1” “gdef f():; 站 prinE a” 
这 4 条 语句 ( 没 错 ,“def £() ”这 个 狐 似 函数 “定义 ”的 语句 确实 是 一 个 可 以 被 执行 ， 也 
必须 被 执行 的 表达 式 ， 这 点 与 CIC++ 中 的 函数 完全 不 同 )。 在 这 4 个 看 上 去 都 差不多 的 语 
句 中 ， 有 两 个 特殊 的 语句 ， 它 们 被 称 为 “赋值 语句 ”， 


8.2.2 ”约束 与 名 字 空 间 


在 Python 中 ， 赋 值 语句 〈 更 确切 地 说 ， 是 具有 赋值 行为 的 语句 ) 是 一 类 相当 特殊 的 
语 甸 ， 原 因 很 简单 ， 它 们 会 影响 名 字 空 间 。 在 A.py 中 ,“a = 1” 是 一 个 赋值 语句 ， 它 的 
作用 是 首先 创建 一 个 整数 对 象 4， 然后 将 这 个 对 象 “ 赋 给 ”名 字 as。 同样 地 “def £()” 
也 是 一 个 赋值 语句 ， 它 的 作用 是 首先 创建 一 个 函数 对 象 〈 参 见 前 析 函 数 机 制 的 章节 )， 然 
后 将 这 个 函数 对 象 “ 赋 给 ”名 字 f。 

我 们 可 以 总 结 出 Python 中 赋值 语句 行为 的 共同 之 处 : - 
> ”创建 一 个 对 象 obj 
> ”将 obj“ 赋 给 ”一 个 名 字 name 


在 Python 中， 除了 在 A:py 中 我 们 网 到 的 赋值 语句 外 ， 还 有 如 “class Alobject):”, 
“import abc” 这 样 的 语句 都 是 赋值 语句 ， 都 遵循 赋值 语句 的 行为 。 

在 赋值 语句 被 执行 之 后 ， 从 概念 上 讲 ， 我 们 实际 上 得 到 了 一 个 “Cname， obj》 这 样 的 
关联 关系 ， 对 于 这 个 关联 关系 ,我 们 采用 《程序 设计 语言 一 一 实践 之 路 》 里 的 术语 ， 将 之 
称 为 约束 。 赋 值 语句 就 是 约束 建立 的 地 方 。 在 一 个 约束 被 创建 之 后 ， 它 不 会 立刻 消炎 ， 相 
有 反 ， 它 会 长 久 地 影响 程序 的 行为 。 约 束 的 容 身 之 处 就 是 名 字 空 间 。 在 Python 中 ， 名 字 空 
间 就 是 一 个 PyDictobject 对 象 实现 的 。 约 束 婚 然 是 name，obj) 这 样 的 关联 关系 ， 那 
么 PyDictobject 简直 就 是 为 它 量 身 订 做 的 。 


回 到 我 们 的 A.py, 在 一 个 module 被 加 载 到 Python 中 之 后 , 它 在 内 存 中 以 一 个 module 
对 象 〈 参 见 剖析 module 实现 的 章节 ) 的 形式 存在 。 在 module 对 象 中 ， 维 护 着 一 个 名 字 空 
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间 (一 个 gicet 对 象 )。 而 (a, 1)、 (f, function object) 这 些 约束 就 位 于 module 的 
名 学 宅 间 中 。 


一 个 对 象 的 名 字 空 间 中 的 所 有 名 字 都 称 为 对 象 的 属性 ， 在 前 面 ， 我 们 看 到 了 Python 
中 有 一 类 “拥有 赋值 行为 ”的 语句 ， 从 另 一 个 角度 来 看 ， 实 际 上 它们 也 是 “拥有 设置 对 象 
属性 的 行为 ”的 语句 。 既 然 设 置 了 属性 ， 那 么 Python 中 还 有 一 类 “拥有 访问 对 象 属性 的 
行为 ”的 语句 ， 我 们 将 访问 对 象 属性 这 个 动作 称 之 为 “属性 引用 "。 比 如 对 于 Apy， 如 果 
男 一 个 Bipy 中 ， 有 “import A” 和 “print A.a” 两 条 语句 ， 其 中 的 “A.a” 就 是 一 个 属 
性 引用 。 属 性 引用 就 是 使 用 另 一 个 名 字 空 间 中 的 和 名字 ， 一 个 module 定义 了 一 个 独立 的 名 
字 空 间 ， 在 男 一 个 module 中 ， 要 使 用 别 的 module 中 的 名 字 ， 只 能 通过 属性 引用 的 方式 访 
问 别 的 module 的 名 字 空 间 ， 获 得 名 字 对 应 的 对 象 〔 注 意 ， 对 于 Python 中 的 class 和 class 
对 应 的 实例 对 象 ， 也 有 类 似 的 考量 )。 


在 Python 中 ，module 之 间 的 名 字 空 间 规 则 是 很 清晰 的 ， 但 在 module 内 部 ， 对 名 字 空 
间 的 使 用 有 着 另 一 套 不 同 的 规则 。 


8.2.3 ”作用 域 与 名 字 空 间 


在 8.2.2 节 中 ,我们 提 到 ， 约 束 一 旦 被 创建 ， 就 会 被 放 入 名 字 空 间 中 ， 然 后 影响 程序 
的 行为 。 在 module 内 部 ， 这 样 的 描述 是 没 错 的 ， 但 是 还 不 够 细致 。 在 module 内 部 ， 名 字 
空间 存在 着 一 个 可 见 性 的 问题 。 我 们 来 考虑 下 面 的 例子 ( 见 代 码 清单 8-1)。 


代码 清单 8-1 





寿 代码 清音 8-] 的 [9 让 从 凡生 况 为 2， 国外 的 输出 结果 为 1, 这 个 结果 意味 着 在 代 
码 清单 8-1 的 [ 归 和 [2] 处 的 两 个 赋值 语句 是 在 不 同 的 名 字 空 间 中 创建 了 约束 ， 而 [3] 和 和 [4] 处 
的 “print a” 也 使 用 了 不 同 的 名 字 空 间 中 的 名 字 “a” 


在 一 个 module 内 部 ， 可 能 存在 多 个 名 字 空 间 ， 每 一 个 名 字 空 间 都 与 一 个 作用 域 对 应 。 
一 个 约束 起 作用 的 那 一 段 程序 正文 区 域 称 为 这 个 约束 的 作用 域 。 而 一 个 作用 域 则 是 指 一 段 
程序 正文 区 域 ， 在 这 个 区 域 里 ， 可 能 有 很 多 个 约束 在 起 作用 ， 一 旦 出 了 这 个 正文 区 域 ， 这 
坚 约束 都 不 起 作用 了 。 在 B:py 中 ， 第 3 行 和 第 4 行程 序 正文 就 组 成 了 一 个 作用 域 ， 在 这 
个 作用 域 中 ,“a = 2” 这 个 约束 起 作用 ， 从 而 影响 代码 清单 8-1 的 [3] 处 的 输出 : “a - 2” 
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这 个 约束 不 能 影响 [机 的 输出 , 因为 第 5 行 代码 不 在 函数 主 所 定义 的 作 内 域 之 内 , 所 以 “a = 
2” 这 个 约束 不 起 作用 。 

对 于 作用 域 这 个 概念 ， 至 关 重 要 的 是 要 记 住 它 仅 仪 是 由 源 程 序 的 文本 决定 的 。 在 
Python 中 ,一 个 约束 在 程序 正文 的 某 个 位 置 是 否 起 作用 ， 是 由 该 约束 在 文本 中 的 位 置 是 否 
唯一 决定 的 ， 而 不 是 在 运行 时 动态 决定 的 。 因 此 ，Python 是 具有 静态 作用 域 (也 称 词 法 作 
用 域 ) 的 。 而 名 字 空 间 就 是 与 作用 域 对 应 的 动态 的 东西 ， 一 个 由 程序 文本 定义 的 作用 域 在 
Python 程序 运行 时 就 会 转化 为 一 个 名 字 室 间 ， 一 个 内 存 中 的 PpyDictobject 对 象 。 也 就 是 
说 ， 在 函数 E 执行 时 ，Python 会 为 三 创建 一 个 名 字 空 间 ， 这 一 点 在 以 后 章 析 函数 机 制 时 会 
详细 介绍 。 


位 于 一 个 作用 域 中 的 代码 可 以 直接 访问 作用 域 中 出 现 的 名 字 ， 所 谓 “ 直 接 访 问 ”， 就 
是 指 不 用 加 上 属性 引用 方式 的 访问 修饰 符 “.”: 比如 在 B;py 中 访问 A.py 中 的 名 字 a， 需 
要 使 用 “print A.a” 的 方式 ; 而 在 B.py 中 访问 自己 这 个 module 中 的 名 字 a， 则 直接 使 
用 “print a” 这 样 的 方式 就 可 以 了 。 


访问 名 字 这 样 的 行为 被 称 为 名 字 引 用 ， 名 字 引 用 的 规则 决定 了 Python 程序 的 行为 。 
还 是 考虑 B.py， 如 果 我 们 删除 第 3 行 代 码 , 那么 第 4 行 代码 的 输出 结果 会 如 何 呢 ? 我 们 已 
经 知道 , 赋值 语句 实际 上 创建 了 约束 , 删除 第 3 行 代码 , 意味 着 在 函数 f 定义 的 作用 域 中 ， 
没有 了 与 名 字 a 相对 应 的 约束 。 换 血 话 说 ， 在 调用 函数 时， 名 字 空 间 中 没有 名 字 a 了 。 
那么 “print a” 的 行为 该 如 何 定义 呢 ? 

一 种 方案 是 抛 出 异常 ， 显 然 ， 这 是 非常 粳 糕 的 方案 ; 而 另 一 种 方案 是 使 用 当前 作用 域 
(函数 Ff 定义 的 作用 域 ) 之 外 的 名 字 a， 那 么 输出 的 结果 就 该 为 1。Python 选择 了 第 二 种 
方案 ， 也 就 是 说 ，Python 支持 柑 套 作用 域 。 


前 面 我 们 提 到 ，module 本 身 关 联 着 一 个 名 字 空 间 ， 所 以 module 对 应 的 程序 正文 ， 即 
B.py 自身 就 是 一 个 作用 域 ,而 B.py 中 的 函数 三 定义 的 作用 域 位 于 B:py 定义 的 作用 域 之 内 ， 
这 样 的 情况 , 就 称 为 髋 套 作用 域 。 Python 的 名 字 引 用 的 行为 被 它 所 支持 的 嵌 套 作用 域 影响 ， 
产生 的 就 是 最 内 岩 套 作用 域 规则 : 由 一 个 赋值 语句 引进 的 名 字 在 这 个 赋值 语句 所 在 的 作用 
域 里 是 可 见 (起 作 用) 的， 而 且 在 其 内 部 婴 套 的 每 个 作用 域 里 也 可 见 ， 除 非 它 被 要 赛 于 内 
部 的 ， 引 进 同样 名 字 的 另 一 条 赋值 语句 所 遮蔽 。 


为 了 找到 某 个 给 定名 字 所 引用 的 对 象 ， 应 该 用 这 个 名 字 在 当前 的 作用 域 〈 名 字 空 间 ) 
里 查找 。 如 果 在 这 里 找到 了 对 应 的 约束 ， 它 就 是 与 这 个 名 字 相 关 的 活动 约束 。 否 则 ， 就 应 
该 到 直接 的 外 围 作用 域 (名字 空 间 〉》 去 查找 ， 并 继续 向 外 顺序 地 检查 外 围 作用 域名 字 空 
间 )， 直 到 到 达 程 序 的 最 外 要 套 层 次 。 这 个 最 外 嵌 套 层次 就 是 module 自身 所 定义 的 那个 作 
用 域 。 
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8.2.3.1 LGB 规则 


最 内 氢 套 作用 域 规则 看 上 去 很 枯燥 ， 所 以 我 们 从 这 一 节 开 始 ， 陆 续 给 出 一 些 例子 ， 形 
象 地 看 一 看 作用 域 规则 如 何 影响 Python 的 行为 。 在 Python 中 , 一 个 module 对 应 的 源 文件 
定义 了 一 个 作用 域 ， 这 个 称 为 global 作用 域 〈 对 应 global 名 字 空 间 );， 一 个 函数 定义 了 一 
个 local 作用 域 〈 对 应 于 local 名 字 空 间 ); Python 自身 还 定义 了 一 个 最 顶层 的 作用 域 一 
builtin 作用 域 ( 对 应 于 builttin 名 字 空 间 , 在 这 里 定义 了 Python 的 builtin 函数 , 比如 dir、 
open、range 等 )。 这 3 个 作用 域 在 Python 2.2 之 前 就 已 经 存在 ， 所 以 那 时 Python 的 作用 
域 规划 被 称 为 LGB 规则 ， 名字 引用 动作 沿 着 local 作用 域 、global 作用 域 、builtin 作用 域 
的 顺序 查找 名 字 对 应 的 约束 。 


还 是 考虑 B.py 中 的 [3]( 见 代码 清音 8-1)， 这 里 有 一 个 对 名 字 a 的 引用 动作 ， 因 此 ， 
Python 首先 会 在 函数 三 定义 的 作用 域 中 《local 作用 域 ) 中 查找 名 字 a， 如 果 找 到 当然 是 最 
好 的 。 如 果 找 不 到 ， Python 就 会 在 B.py 定义 的 作用 域 〈global 作用 域 ) 中 查找 名 字 a， 
如 果 还 是 找 不 到 , 则 会 到 Python 自封 定义 的 builtin 作用 域 中 查找 。 图 8-4 显示 了 这 个 名 字 
引用 的 过 程 ; 





图 8-4 Python2.2 之 前 的 LGB 作用 域 规则 


LGB 有 一 些 变化 的 情况 ， 比 如 对 于 B.py 中 的 [4] (更 代码 清单 8-1), 其 实 也 会 遵循 LGB 
规则 ， 只 不 过 这 时 的 local 作用 域 和 global 作用 域 就 是 同一 个 作用 域 了 。 对 应 到 名 字 空 间 
二 ， 就 是 同一 个 名 字 空 间 。 更 进一步 ， 对 应 到 EyFrameobjecE 中 ，f_local 和 上 global 
就 是 指向 同一 个 PyDictobject 对 象 了 。 


8.2.3.2 LEGB 规则 
从 Python 2.2 开始 ，Python 引入 了 堪 套 函数 ， 这 时 的 作用 域 规则 才 更 接近 我 们 前 面 提 
到 的 最 内 嵌 套 作用 域 规则 ， 如 代码 清单 8-2 所 示 。 
代码 清单 8-2 


| 
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代码 清单 8-2 的 [2] 处 调用 的 函数 实际 上 调用 的 是 函数 E 中 定义 的 内 帐 函数 g， 在 代码 
清单 8-2 的 [0 处， 函数 g 内 的 “print a” 的 输出 结果 为 2。 初 看 上 去 有 些 疑 问 ， 因 为 函 
数 £ 内 的 约束 “a = 2” 在 其 之 外 应 该 是 不 起 作用 的 ， 当 执行 Eunc() 时 ， 起 作用 的 约束 应 
该 是 “a = 1” 才 对 。 但 是 我 们 之 前 说 到 了 ， 作 用 域 仅仅 是 由 文本 决定 的 ， 函 数 s 位 于 函 
数 夺 之 内 ， 所 以 函数 g 定义 的 作用 域内 嵌 于 函数 上 的 作用 域 之 内 。 换 名 话说， 函数 三 的 作 
用 域 是 函数 a 的 作用 域 的 直接 外 围 作用 域 ， 所 以 ， 按 照 最 内 人 嵌 套 作用 域 规则 ，[ 菩 处 的 名 字 
引用 应 该 引用 的 是 函数 f 定义 的 作用 域 中 所 创建 的 约束 。 

尽管 在 代码 清单 8-2 的 [] 处 ，“a = 2” 这 个 约束 已 经 不 起 作用 了 ， 但 是 Python 在 执 
行 “func =£()” 时 ， 会 执行 函数 中 的 “def g() :” 语 多， 这 时 Python 会 将 约束 “a = 2” 
与 函数 g 对 应 的 函数 对 象 捆绑 在 一 起 ， 将 捆绑 后 的 结果 返回 ， 这 个 捆绑 起 来 的 整体 被 称 为 
“ 闭 包 ”。 

实际 上 这 里 有 一 个 相当 微妙 的 问题 ， 最 内 媒 套 作用 域 规则 是 “《 闲 包 ” 的 结果 昵 ， 还 是 
“ 闭 包 ”是 最 内 侈 套 作用 域 规则 的 实现 方案 ? 这 两 个 问题 看 上 去 是 一 致 的 ， 但 却 隐 含 着 谁 
决定 谁 的 关系 。 实 际 上 ，Python 实现 闭 包 是 为 了 实现 最 内 嵌 套 作用 域 规则 。 换 名 话说， 最 
内 嵌 套 作用 域 规则 是 语言 设计 时 的 设计 策略 ， 即 是 形 而 上 的 “ 道 ”“ 而 闭 包 则 实现 语言 时 
的 一 种 方案 ， 即 是 形 而 下 的 “器 ”。 

这 里 显示 的 作用 域 规则 通常 也 被 称 为 LEGB 规则 ， 其 中 的 E 为 enclosing 的 缩写 ， 代 
表 的 正 是 “直接 外 围 作用 域 ”这 个 概念 。 


8.2.3.3 global 表达 式 


初学 Python 时 ， 由 于 大 家 不 清楚 Python 的 作用 域 规则 ， 所 以 会 对 一 些 出 错 的 情况 百 
思 不 得 其 解 。 比 如 下 面 的 例子 ; 
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运行 的 结果 会 抛 出 异常 ， 显 示 代 码 清单 8-2 的 [1] 处 有 错 ， 异 常 的 信息 为 “1ocal 
variable 'a' referencedbefore assignment”。 什么 ?Y a 没有 赋值 ? 不 对 呀 , 在 module 
定义 的 作用 域内 明明 已 经 建立 了 “a = 1” 这 个 约束 ， 按 照 LEGB 规则 ， 这 个 输出 结果 应 
该 是 1 才 对 ， 而 且 在 调用 上 之 前 我 们 调用 了 函数 g，g 可 是 pp re 
怎么 到 了 函数 F 里 ， 同 样 的 代码 ， 就 说 没有 虐 值 了 呢 ? 


理解 这 个 错误 的 关键 在 于 深刻 理解 最 内 赚 套 作用 域 规则 ， ON 
个 奇怪 问题 的 症结 所 在 。 “由 一 个 赋值 语句 引进 的 名 字 在 这 个 赋值 语句 所 在 的 作用 域 里 是 
可 见 (起 作用 ) 的 ” 这 句 话 的 意思 对 应 到 这 里 , 就 是 说 虽然 “as = 2” 这 个 约束 是 在 “print 
a” 之 后 建立 的 ， 但 是 由 于 它们 在 同一 个 作用 域内 ， 所 以 在 代码 清单 8.2 的 [1] 处 ，“a = 2” 
这 个 约束 的 名 字 a 就 是 可 见 的 ， 按 照 LEGB 规则 ， 在 1ocal 名 字 空 间 中 就 能 找到 名 字 。 
所 以 使 用 的 是 local 名 字 空 间 中 的 a 所 对 应 的 对 象 。 但 是 很 不 幸 的 是 ， 虽 然 名 字 a 在 [4] 
处 已 经 可 见 了 ,但 是 要 到 [2] 处 对 这 个 名 字 的 赋值 动作 才 会 发 生 ，a 才 会 引用 一 个 有 效 的 对 
象 ， 所 以 在 [1 处 当然 应 该 抛 出 一 个 “referencea before assignment ”的 异常 。 

更 为 有 趣 的 东西 隐藏 在 编译 之 后 的 字 节 码 中 ， 我 们 可 以 看 看 上 面 的 代码 反 汇 编 的 结 
本 过 I: 





对 于 相同 的 “print a” Python 竟然 编译 出 了 不 同 的 字 节 码 指令 ， 在 函数 g 中 ， 名 
字 引 用 对 应 的 字 节 码 指令 是 LoAD_GLOBAL， 意 思 是 要 在 giobal 名 字 空 间 中 查找 名 字 ; 而 
在 函数 f 中 , 名 字 引 用 对 应 的 字 节 码 指令 为 boaD_FAST, 这 条 指令 是 指 在 1ocal 名 字 空 间 
中 查找 名 字 ， 也 就 是 说 Python 在 编译 时 就 已 经 知道 名 字 究 竟 注 身 于 何 处 ， 这 正 说 明了 
Python 采用 的 是 表态 作用 域 规则 ， 仅 仅 根据 程序 正文 就 能 确定 名 字 引 用 策略 。 同 时 ， 这 个 
现象 又 一 次 地 说 明了 最 内 懈 套 作用 域 规则 是 指导 Python 实现 这 一 次 是 编译 器 的 实现 ) 
的 “ 道 ”。 


上 上 面 的 例子 表明 ,一 旦 作用 域 中 有 了 对 于 菜 个 名 字 的 赋值 操作 ， 这 个 名 字 就 会 在 作用 
域 中 可 见 ， 就 会 出 现在 local 名 字 空 间 中 。 换 句 话说 ， 就 记 蔽 了 外 围 作用 域 的 相同 的 名 字 ，。 


Python 六 到 前 新 一 一 深 庆 痪 簧 动态 访 这 项 心 项 六 
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但 是 有 的 时 候 , 我 们 就 是 想 在 函数 三 中 输出 外 围 作用 域 的 名 字 a, 同时 还 要 对 a 进行 赋值 ， 
但 是 这 个 赋值 操作 在 我 们 的 设想 中 应 该 改变 外 围 作用 域 中 的 名 字 a 对 应 的 对 象 , Python 精 
心地 为 我 们 准备 了 global 关键 字 。 当 一 个 作用 域 中 出 现 了 global 语句 时 ， 就 意味 着 我 
们 强制 命令 Python 对 某 个 名 字 的 引用 只 参考 global 名 字 空 间 , 而 不 用 再 去 管 LEGB 规则 。 
看 了 下 面 两 个 例子 ， 你 就 会 对 slboal 语句 了 如 指 掌 了 : 








8.2.3.4， 属 性 引用 与 名 字 引 用 


属性 引用 实质 上 也 是 一 种 名 字 引 用 , 其 本 质 都 是 到 名 字 空 间 中 去 查找 一 个 名 字 所 引用 
的 对 象 。 但 是 属性 引用 可 以 视 为 一 种 特殊 的 名 字 引 用 ， 它 不 受 LEGB 规则 的 制约 。 这 不 是 
说 它 功 能 更 强大 了 ， 而 是 说 它 的 功能 更 弱 了 。 在 属性 引用 时 ， 一 定 会 有 对 象 存在 ， 而 属性 
引用 就 是 到 对 象 的 名 字 空 间 中 去 查找 名 字 ， 这 里 没有 赚 套 的 作用 域 ， 它 所 要 遵循 的 规则 比 
名 字 引 用 所 要 遵循 的 LEGB 规则 简单 多 了 。 属 性 引用 肚 里 可 没 那么 多 花花 肠子 ,还 要 到 什 
么 外 围 去 查找 ， 不 用 了 ， 有 就 是 有 ， 没 有 就 是 没有 ， 简 单 明 了 。 通 常 在 一 个 Python 程序 
中 会 同时 存在 属性 引用 和 名 字 引 用 ， 下 面 的 例子 标 出 了 这 些 不 同 的 引用 :， 
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在 8.2.1 节 中 提 到 ，module 为 Python 应 用 程序 划分 了 名 字 空 间 ， 通 过 属性 引用 ， 我 们 
就 可 以 访问 各 个 独立 名 字 空 间 中 的 名 字 ， 而 通过 名 字 引 用 ， 我 们 可 以 访问 本 module 内 部 
定义 的 多 个 嵌 套 的 名 字 空 间作 用 域 )。 这 两 种 方式 的 结合 使 我 们 能 访问 任何 一 个 名 字 空 
间 ， 但 是 它们 的 结合 也 给 初 识 Python 的 人 带 来 相当 的 惊奇 体验 。 看 代码 清单 8-3 的 例子 。 
代码 清单 8-3 






在 代码 清单 8.3 的 [01 处， 发生 了 两 次 引用 : 首先 ，Python 通过 名 字 引 用 获得 了 名 字 
module2 对 应 的 module 对 象 ; 然后 ，Python 通过 属性 引用 获得 了 module2 对 应 的 module 
对 象 中 的 名 字 show_owner 对 应 的 函数 对 象 。 在 调用 函数 的 过 程 中 ，Python 的 执行 流程 到 
达 代码 清单 8-3 的 [ 2] 时， 发 生 了 一 次 名 字 引 用 ， 寻 找 名 字 owner， 由 于 名 字 引 用 是 不 能 访 
问 自 身 mudule 之 外 的 名 字 空 间 ， 所 以 按照 LEGB 规则 ， 四 处 输出 的 结果 是 "module2'。 
尽管 modulel 中 在 调用 show_owner 函数 之 前 ， 在 modulel 的 名 字 空 间 中 引入 了 名 字 
owner， 但 是 这 对 module2 中 的 函数 一 点 影响 都 没有 ， 因 为 函数 是 在 module2 中 ， 而 名 字 
引用 遵循 的 LEGB 的 规则 不 会 越过 module 的 边界 。 

那么 有 没有 办 法 让 show_owner 能 输出 modulel 中 的 owner 信息 呢 ? 有 的 , 通过 函数 
参数 ， 我 们 可 以 修改 代码 ， 如 代码 清单 8-4 所 示 。 
代码 清单 8-4 
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这 次 在 代码 清单 8-4 的 [2] 处 输出 的 结果 就 是 “moaule1” 了 。 有 趣 的 是 ，[2] 处 还 是 一 
个 名 字 引 用 ， 还 是 遵循 着 LEGB 规则 。 关 键 之 处 在 于 ， 函 数 的 参数 的 传递 机 制 是 一 种 “ 拥 
有 赋值 行为 ”的 动作 。 什 么 意思 呢 ?” 也 就 是 说 ， 函 数 的 参数 也 创建 了 一 个 约束 ， 参 数 名 将 
作为 名 字 出 现在 函数 的 local 名 字 空 间 中 (机 理 上 可 以 这 么 理解 ， 实 际 实现 并 非 如 此 ， 参 
考 函 数 机 制 一 章 )， 而 其 对 应 的 对 象 则 是 从 moaulel 中 传递 过 来 的 module1i .owner 对 应 
的 字符 串 对 象 。 从 而 使 LEGB 规则 能 够 正确 地 引用 到 字符 串 对 象 “modulel”。 


这 又 是 最 内 幅 套 作用 域 规 则 的 杰作 ， 经 过 对 那么 多 实例 的 研究 探讨 ， 我 们 可 以 发 现 ， 
这 条 规则 对 于 理解 Python 的 行为 至 关 重 要 。 正 是 这 条 规则 ， 决 定 了 Python 行为 的 更 多 是 
代码 出 现 的 位 置 ， 而 非 代 码 执行 的 时 间 。 


作用 域 和 名 字 空 间 概念 和 规则 对 于 理解 Python 的 运行 时 行为 非常 关键 ， 但 是 ， 之 前 
我 们 就 已 经 提 到 ， 它 们 只 是 用 于 指导 Python 如 何 实现 的 “ 道 ” Python 的 源码 中 又 是 如 何 
实现 这 些 形 而 上 的 “ 道 ” 的 呢 ? 这 些 都 会 在 随后 的 章节 中 依次 展开 讨论 - 对 于 现在 的 我 们 
来 说 ， 谈 论 这 些 是 如 何 实现 的 还 为 时 尚 早 ， 毕 竟 ， 我 们 现在 还 不 知道 Python 虚拟 机 是 如 
何 执行 源 文 件 编译 后 的 字 节 码 指令 序列 的 。 


8.3 ”Python 虚拟 机 的 运行 框架 


当 Python 启动 后 ， 首 先 会 进行 Python 运行 时 环境 的 初始 化 。 注 意 这 里 的 运行 时 环境 
是 一 个 与 上 一 节 痢 析 的 执行 环境 不 同 的 概念 。 运 行 时 环境 是 一 个 全 局 的 概念 ， 而 执行 环境 
实际 就 是 一 个 栈 帧 , 是 一 个 与 某 个 Code Block 对 应 的 概念 ,这 里 不 明白 两 者 的 区 别 不 要 紧 ， 
在 以 后 剖析 运行 时 环境 初始 化 时 我 们 就 能 弄 清 楚 两 者 的 区 别 和 联系 。 运行 时 环境 的 初始 化 
过 程 非常 地 复杂 ， 后 面 将 用 单独 的 一 章 来 剖析 ， 这 里 假设 初始 化 的 动作 已 经 完成 ， 我 们 已 
经 站 在 了 Python 才 拟 机 的 门槛 外 ， 只 需要 轻 轻 推动 一 下 第 一 张 骨牌 ， 整 个 执行 过 程 就 像 
多 米 诺 骨 牌 一 样 ， 一 环 扣 一 环 地 展开 。 

这 个 推动 第 一 张 骨 牌 的 地 方 在 一 个 名 叫 eyEval_EvalFramEx 的 函数 中 ， 这 个 函数 实 
际 上 就 是 Python 的 虚拟 机 的 有 具体 实现 ， 它 是 一 个 非常 巨大 的 函数 ， 因 此 我 们 在 列 出 其 中 
的 源 代 码 时 和 以 前 有 些 不 同 。 


Python 源码 出 镍 一 一 深度 荣 帝 动 区 刘 言 页 心 其 六 
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PyEval_EvalFrameEx 首先 会 初始 化 一 些 变量 ， 其 中 PyFrameobject 对 象 中 的 
PyCodeObject 对 象 包含 的 重要 信息 都 被 照顾 到 了 。 当 然 ， 另 一 个 重要 的 动作 就 是 初始 化 
了 堆栈 的 栈 顶 指针 ， 使 其 指向 E->f_stacktop: 











前 面 我 们 说 过 , 在 pycoaeobjeet 对 象 的 co_coae 城中 保存 着 字 节 码 指令 和 字 节 码 指 
令 的 参数 ，Python 虚拟 机 执行 字 节 码 指令 序列 的 过 程 就 是 从 头 到 尾 遍 历 整 个 co_code、 依 
次 执行 字 节 码 指令 的 过 程 。 在 Python 的 虚拟 机 中 ， 利 用 3 个 变量 来 完成 整个 遍历 过 程 。 
co_code 实际 上 是 一 个 pystringobject 对 象 , 而 其 中 的 字符 数组 才 是 真正 有 意义 的 东西 ， 
这 也 就 是 说 ， 整 个 字 节 码 指令 序列 实际 上 就 是 一 个 在 C 中 普 普 通通 的 字符 数组 。 因 此 ， 遍 
历 过 程 中 所 使 用 的 这 3 个 变量 都 是 char* 类 型 的 变量 ; first_instr 永远 指向 字 节 码 指令 
序列 的 开始 位 置 ，next_instr 永远 指向 下 一 条 待 执行 的 字 节 码 指令 的 位 置 ，f_1asti 指 
向 上 一 条 已 经 执行 过 的 字 节 码 指令 的 位 置 。 图 8-5 展示 了 这 3 个 变量 在 遍历 中 荣 时 刻 的 情 
形 ; 






a a ocode: 字 : dy eh 
f_->f_lasti : 上 一 条 已 执行 的 字 节 码 在 co_code 中 的 索引 
图 8-5 遍历 字 节 码 指令 序列 
那么 这 个 一 步 一 步 的 动作 是 如 何 完成 的 呢 ， 我 们 来 看 一 看 Python 虚拟 机 执行 字 节 码 
指令 的 整体 架构 , 其 实 就 是 一 个 for 循环 加 上 一 个 巨大 的 switchycase 结构 ,熟悉 Windows 
SDK 编程 的 朋友 可 以 想象 一 下 Windows 下 那个 巨大 的 消息 循环 ， 就 是 那样 的 结构 : 





Python 涯 三 削 六 一 一 洪 民 闲 黄 动态 请 营 检 必 闪 江 
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注意 ， 这 只 是 一 个 极度 简化 之 后 的 Python 虚拟 机 的 样子 ， 如 果 想 一 睹 Python 
的 尊 容 ， 请 参考 ceval.c 中 的 源码 ， | 


在 这 个 执行 架构 中 ， 对 字 节 码 的 一 步 一 步 地 裔 历 是 通过 儿 个 宏 米 实现 的 : 


CE 


虚拟 机 












在 对 pvcoaeobject 对 象 的 分 析 中 我 们 说 过 ，Python 的 字 节 码 有 的 是 带 参 数 的 ， 有 的 
是 没有 参数 的 ， 而 判断 是 否 带 参 字 节 码 是 通过 HAS. ARG 这 个 宏 实 现 的 。 注 意 ， 对 不 同 的 学 
节 码 指令 ， 由 于 存在 是 否 需 要 指令 参数 的 区 别 ， 所 以 next_instr 的 位 移 可 能 是 不 同 的 。 
但 是 无 论 如 何 ，next_instr 总 是 指向 Python 下 一 条 要 执行 的 字 节 码 ， 这 很 像 x86 平台 上 
的 那个 PC 寄存 器 。 


Python 在 获得 了 一 条 字 节 码 指令 和 其 需要 的 指令 参数 后 ， 会 对 字 节 码 指令 利用 switch 
进行 判断 ， 根 据 判断 的 结果 选择 不 同 的 case 语句 ,每 一 条 字 节 码 指令 都 会 对 应 一 个 case 
语句 。 在 case 诗句 中 ， 就 是 Python 对 字 节 码 指令 的 实现 。 


在 成 功 执行 完 一 条 字 节 人 码 指令 后 ,Python 的 执行 流程 会 跳 转 到 fast_next_opcode 处 ， 


” 或 者 是 for 循环 处 , 不 管 如 何 , Python 接 下 来 的 动作 都 是 获得 下 一 条 字 节 码 指 令 和 指令 参 


数 ， 完 成 对 下 一 条 指令 的 执行 。 如 此 一 条 一 条 地 过 历 co_code 中 包含 的 所 有 字 节 码 指 令 ， 
最 终 完成 了 对 Python 程序 的 执行 。 

需要 提 到 的 一 点 是 那个 名 叫 “why ”的 神秘 变量 ， 它 指示 了 在 退出 这 个 巨大 的 sor 循环 
时 Python 执行 引擎 的 状态 。 因 为 Python 执行 引擎 不 一 定 每 次 执行 都 会 正确 无 误 ， 很 有 可 
能 在 执行 到 某 条 字 节 码 的 时 候 , 产生 了 错误 , 这 就 是 我 们 熟悉 的 那个 “异常 "一 一 exception。 
所 以 在 Python 退出 了 执行 引擎 的 时 候 ， 就 需要 知道 执行 引擎 到 底 是 因为 什么 原因 结束 了 
对 字 节 码 指令 的 执行 。 是 正常 结束 呢 ? 还 是 因为 有 错误 发 生 ， 实 在 是 执行 不 下 去 了 ? why 
义无反顾 地 担负 起 这 一 重任 。 关 于 why 在 Python 虚拟 机 中 作用 的 详细 剂 析 ， 我 们 留 到 剂 
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析 蜡 常 机 制 时 详细 讲述 。 
变量 why 的 取 值 范围 在 cevalc 中 被 定义 ， 其 实 也 就 是 Python 结束 字 节 码 执行 时 的 状 





Ta 


现在 ， 想 必 大 家 已 经 对 Python 的 执行 引擎 的 大 体 框架 了 然 于 胸 了 。 在 Python 的 执行 
流程 进入 了 pyEval_EvalFrameEx 中 的 那个 for 循环 , 取出 第 一 条 字 节 码 之 后 , 第 一 张 多 
米 诺 骨牌 已 经 被 推倒 , 命运 不 可 阻挡 地 降临 了 。 一 条 接 一 条 的 字 节 码 像 潮 水 一 样 测 涌 而 来 ， 
浩 浩荡 水 ， 横 无 际 涯 。 


8.4 ”Python 运行 时 环境 初探 


到 这 里 ， 我 们 已 经 看 到 了 Python 虚拟 机 的 整体 的 执行 框架 ， 我 们 还 看 到 了 Python 虚 
拟 机 在 执行 时 需要 不 断 使 用 的 执行 环境 。 了 解 这 两 点 对 掌握 第 二 部 分 的 内 容 已 经 足够 了 。 
但 是 ， 虚 拟 机 和 执行 环境 还 仅仅 是 Python 运行 机 理 〈 或 者 说 运行 模型 ) 的 一 部 分 ， 为 了 
对 Python 整个 的 运行 机 理 做 一 个 全 面 的 了 解 ， 我 们 还 需要 大 致 了 解 一 下 Python 的 运行 时 
环境 ， 

前 而 我 们 说 了 ，pyFramsobject 对 应 于 可 执行 文件 在 执行 时 的 栈 帧 ， 但 是 一 个 可 执行 
文件 要 在 操作 系统 中 运行 ， 只 有 栈 帧 是 不 够 的 。 之 前 我 们 遗漏 了 两 个 对 于 可 执行 文件 运行 
至 关 重 要 的 概念 : 进程 和 线程 


在 本 节 中 ， 我 们 首先 要 对 Python 的 运行 模型 (主要 是 线程 模型 进行 一 个 整体 概念 
上 的 了 解 ， 虽 然 这 部 分 内 容 我 们 会 留 到 剖析 Python 的 多 线程 实现 时 青 详 细 考 察 ， 但 是 由 
于 Python 在 初始 化 时 会 创建 一 个 主线 程 ， 所 以 其 运行 时 环境 中 存在 一 个 主线 程 ， 而 且 本 
部 分 将 剖析 的 Python 的 异常 机 制 会 利用 到 Python 内 部 的 线程 模型 ， 因 此 对 Python 线程 模 
型 有 一 个 整体 概念 上 的 了 解 也 是 必须 的 。 


以 Win32 平台 为 例 ， 我 们 知道 ， 对 于 原生 的 Win32 可 执行 文件 ， 无 论 是 由 C/C++ 产 
生 ， 还 是 由 Delphi 产生 ， 都 会 在 一 个 进程 (Process) 中 运行 。 进 程 并 非 是 与 机 器 指令 序列 
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相对 应 的 活动 对 象 , 这 个 与 可 执行 文件 中 机 器 指令 序列 对 应 的 活动 对 象 是 由 线程 (Thread) 
这 个 概念 来 进行 抽象 的 ， 而 进程 则 是 线程 的 活动 环境 。 


对 于 通常 的 单线 程 可 执行 文件 ， 在 执行 时 操作 系统 会 创建 一 个 进程 ， 在 进程 中 ， 又 会 
有 一 个 主线 程 ; 而 对 于 多 线程 的 可 执行 文件 ， 在 执行 时 会 操作 系统 会 创建 一 个 进程 和 多 个 
线程 。 该 多 个 线程 能 共享 进程 地 址 空间 中 的 全 局 变量 ， 这 就 自然 而 然 地 引出 了 线程 同步 的 
问题 。CPU 对 任务 的 切换 实际 上 是 在 线程 之 间 切 换 ， 在 切换 任务 时 ，CPU 需要 执行 线程 
环境 的 保存 工作 ， 而 在 切换 至 新 的 线程 之 后 ， 需 要 恢复 该 线程 的 线程 环境 。 


这 些 关 于 程序 运行 的 概念 同样 适用 于 Python，Python 实现 了 对 多 线程 的 支持 ， 而 且 
Python 中 的 一 个 线程 就 是 操作 系统 上 的 一 个 原生 线程 。 这 里 我 们 对 多 线程 机 制 不 过 多 深 
入 ， 现 在 只 需 记 住 ，Python 在 执行 时 ， 可 能 会 有 多 个 线程 存在 。 

在 前 面 我 们 看 到 了 虚拟 机 的 大 致 运行 框架 ， 实 际 上 这 个 虚拟 机 就 是 Python 中 对 CPU 
的 抽象 ， 可 以 看 做 是 一 个 软 CPU，Python 中 的 所 有 线程 都 使 用 这 个 软 CPU 来 完成 计算 工 
作 。 真实 机 器 上 的 任务 切换 机 制 对 应 到 Python 中 ， 就 是 使 不 同 的 线程 轮流 使 用 虚拟 机 的 
机 制 。 


CPU 切换 任务 时 需要 保存 线程 运行 环境 。 对 于 Python 来 说 ， 在 切换 线程 之 前 ， 同 样 
需要 保存 关于 当前 线程 的 信息 。 在 Python 中 ， 这 个 关于 线程 状态 信息 的 抽象 是 通过 
PyThreadState 对 象 来 实现 的 ， 一 个 线程 将 拥有 一 个 pyThreadstate 对 象 。 所 以 从 另 一 
种 意义 来 说 ， 这 个 pyThreaastate 对 和 象 也 可 以 看 成 是 对 线程 本 身 的 抽象 。 但 实际 上 ， 这 
两 者 是 有 很 大 区 别 的 ，pyrhreaastate 并 非 是 对 线程 本 身 的 模拟 ， 因 为 Python 中 的 线程 
仍然 使 用 操作 系统 的 原生 线程 。 pyThreadstate 仅仅 是 对 线程 状态 的 抽象 ， 不 过 在 本 书 的 
大 部 分 章节 中 ， 为 了 叙述 的 方便 ， 我 们 不 过 分 严格 地 区 分 线程 和 线程 状态 本 身 ， 所 以 在 以 
后 我 们 有 时 会 称 pyThreadstate 为 线程 对 象 ， 有 时 会 称 之 为 线程 状态 对 象 。 只 有 在 削 配 
多 线程 机 制 时 ， 我 们 会 严格 区 分 两 者 。 对 于 下 面 将 提 到 的 pyInterpretersState 对 象 ， 也 
有 类 似 的 海量 。 

刚才 提 到 ， 在 Win32 下 ,线程 是 不 能 独立 存活 的 ， 它 需要 存活 在 进程 的 环境 中 ， 而 多 
个 线程 可 以 共享 进程 的 一 些 资源 。 在 Python 中 同样 也 是 如 此 ， 考 虑 一 下 ， 如 果 Python 程 
序 中 有 两 个 线程 ， 都 会 进行 同样 的 一 个 动作 一 一 import sys， 那 么 这 个 sys module 究竟 应 
该 存在 几 份 ? 是 全 局 共享 的 还 是 每 个 线程 都 有 一 个 sys module? 如 果 每 个 线程 有 自己 独立 
module 集合 , 那么 Python 对 内 存 的 消耗 就 会 显得 非常 惊人 。 所 以 在 Python 中 , 这些 module 
都 是 全 局 共享 的 ， 仿 佛 这 些 module 都 是 进程 中 的 共享 资源 一 样 ， 对 于 进程 这 个 抽象 概念 ， 
Python 以 PyInterpreterState 对象 来 实现 。 


在 Win32 下 ,通常 都 会 有 多 个 进程 ,而 Python 实际 上 也 可 以 有 多 个 逻辑 上 的 interpreter 
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存在 , 在 通常 的 情况 下 ，Python 中 只 有 一 个 interpreter， 这 个 interpreter 中 维护 了 一 个 或 多 
个 pyThreadstate 对 象 ， 与 这 些 py'Threadstate 对 象 对 应 的 线程 轮流 使 用 一 个 字 节 码 执 
行 引擎 。 看 ， 是 不 是 与 嘉实 机 器 上 的 程序 执行 模型 非常 相似 ? 

谈 到 多 线程 ， 就 不 能 不 谈 到 线程 同步 。 在 Python 中 ， 是 通过 一 个 全 局 解释 器 锁 GIL 
(Global Interpreter Lock) 来 实现 线程 同步 的 ， 关 于 这 部 分 内 容 ， 我 们 留 到 剖析 Python 多 
线程 机 制 时 再 详细 考察 。 


好 了 , 现在 讨论 刚才 提 到 的 邦 两 个 关键 对 象 : 表示 进程 概念 的 PyInterpreterObject 
对 象 和 表示 线程 概念 的 pyThreadstate 对 象 。 





.在 pyThreadstate 对 象 中 ， 我们 看 到 了 热 悉 的 bygrameobject (_frame) 对 象 。 也 就 
是 说 ， 在 每 个 pyrhreadstate 对 象 中 ， 会 维护 一 个 栈 帧 的 列表 ， 以 与 PyThreadstate 对 
象 的 线程 中 的 函数 调用 机 制 对 应 。 在 Win32 上 ， 情 形 也 是 一 样 的 ， 每 个 线程 都 会 有 一 个 函 
数 调用 堆栈 。 


关于 pyInterpreterState 和 pythreadState 的 创建 留待 以 后 在 合适 的 地 方 描 述 ， 
不 过 这 里 可 以 看 看 pyThreadstate 和 pyFrameObject 之 闻 的 一 些 交 互 和 联系 。 当 Python 
虚拟 机 开始 执行 时 ， 会 将 当前 线程 状态 对 象 中 的 frame 设置 为 当前 的 执行 环境 (trame): 








Python 灌 妈 前 折 一 一 深 居 或 策 动态 这 言 檬 作 共 大 








而 在 建立 新 的 pyraneobject 对 象 时 ， 则 从 当前 线程 的 状态 对 象 中 取出 旧 的 frame， 
建立 pyFrameobject 链表 : ; 






现在 我 们 发 散 思 维 ， 想 象 一 下 Python 在 运行 时 的 某 刻 ， 内 存 中 所 有 参与 执行 的 关键 
基础 对 象 的 布局 ， 如 图 8-6 所 示 : 
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图 8-6 ”Python 的 运行 时 环境 
好 了 ， 有 了 这 些 基础 知识 ， 我 们 就 可 以 从 容 面 对 Python 虚拟 机 的 一 切 内 容 了 。 
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在 上 一 章 中 , 我 们 已 经 通过 pyEval_EvalFrame5x 看 到 了 Python 虚拟 机 的 整体 框架 ， 
从 这 章 开 始 ， 我 们 将 深入 到 pyBval_EvalFrameEx 的 各 个 细节 当中 ， 深 入 齐 析 Python 的 
虚拟 机 。 在 本 章 中 ， 我 们 将 剖析 Python 虚拟 机 是 如 何 完成 对 Python 中 的 一 般 表 达 式 的 执 
行 的 。 在 这 里 所 谓 的 “一 般 表达 式 ” 包 括 最 基本 的 对 象 创建 语句 ， 打 印 语 名 等 。 至 于 if， 
while 等 表达 式 , 我 们 将 之 归 类 为 控制 流 语句 ， 对 于 Python 中 控制 流 的 详细 剂 析 ， 我 们 将 
留 到 下 一 章 。 本 章 将 通过 对 3 个 简单 的 Python 源 文件 的 考察 ， 完 成 对 Python 中 一 般 表达 
式 的 剖析 。 


简单 内 建 对 象 的 创建 





还 记得 在 前 析 PycodeObject 的 最 后 我 们 所 展示 simple_obj.py 吗 ， 我 们 对 Python 上 处 
拟 机 的 前 析 就 从 这 里 开始 。 在 simple_obj.py 中 ， 我 们 仅仅 是 创建 了 一 些 Python 中 最 简单 
的 对 象 。 





我 们 从 分 析 simple_obj.py 对 应 的 pycodeobject 对 象 中 的 常量 表 本 和 符号 
表 co_names 入 手 。 对 于 simple_obj.py， 利 用 我 们 之 前 开发 的 PycParser 工具 解析 simple_ 
obj.py 对 应 的 pyc 文件 ， 解 析 的 结果 如 图 9-1 所 示 。 看 看 co_consts 和 co_names 中 究竟 
都 有 些 什 么 : 
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~ <consts> 
<int value="1" /> 


<intemstr Index="1" length="1" value="i" /> 
<internStr index="2" length="1" value="s" /> 
<intemStr index="3" langth="1" vyalue="d" /> 
<InternStr ndex="4" length="1" value="I" /> 





图 9-1 simple_obj.pyc 中 的 常量 表 和 符号 表 

图 9-1 中 所 展示 的 常量 表 和 符号 表 是 simple_obi.py 中 关于 程序 运行 的 重要 信息 。 在 随 
后 的 剂 析 中 我 们 可 以 清楚 地 看 到 , 这 些 信息 在 虚拟 机 执行 字 节 码 指 令 的 过 程 中 具有 非常 重 
要 的 作用 。 

在 前 一 章 中 , 我 们 已 经 看 到 了 pyEval_EvalFrameBx 中 定义 了 一 些 在 遍历 字 节 伺 指 令 
序列 co_code 时 所 必须 的 安 。 其 实 ， 在 PyEval_EvalFramesx 的 实现 中 ， 出 于 对 效率 的 
考虑 , 使 用 了 大 量 的 宏 , 其 中 的 一 些 宏和 包括 了 对 栈 的 各 种 操作 以 及 对 tuple 元 素 的 访问 操 
作 ， 在 执行 字 节 码 指 令 时 ， 会 大 量 使 用 这 些 宏 。 我 们 来 看 一 看 在 本 章 的 出 析 中 需要 的 一 些 
宏 的 定义 : 






在 齐 析 PycodeQbject 时 ， 我 们 已 经 利用 Python 的 dis 工具 对 Simple_obj.pyc 中 的 字 
节 码 指令 进行 了 解析 ， 这 时 首先 来 看 一 看 对 第 一 行 Python 代码 的 执行 : 


是 外 了 






其 中 粗 体 部 分 那 一 列表 示 当 前 的 字 节 码 指令 对 源 文件 中 的 哪个 符号 或 常量 进行 了 操 
作 或 产生 了 影响 (下 同 )。 在 本 章 对 Python 虚拟 机 的 剖析 中 ， 我 们 的 重点 将 放 在 字 节 码 指 
令 将 如 何 影 响 当 前 活动 的 PyFrameobject 对 和 象 中 的 运行 时 栈 和 local 名 字 空 间 (f-sf_ 
locals) : 字 节 码 指 令 对 符号 或 常量 的 操作 最 终 都 将 反映 到 运行 时 栈 和 local 名 字 空 间 中 。 
首先 , 我 们 通过 图 9-2 观察 一 下 运行 时 栈 和 local 名 字 空 间 的 初始 情况 。 在 local 名 字 空 
间 中 ， 将 存储 程序 执行 过 程 中 的 局 部 变量 。 实 际 上 , local 名 字 空 间 也 就 是 Python 虚拟 机 
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的 局 部 变量 表 。 关 于 它 的 作用 和 重要 性 ， 在 后 面 的 前 析 中 我 们 会 看 得 非常 清楚 。 
stack pointer 





注意 : 在 以 后 的 阐述 中 ， 虚 线 指 针 代 表 人 f_locals， 实 线 指针 代表 stack_pointer， 
图 9-2 初始 状态 时 的 运行 时 栈 和 local 名 字 空 间 

前 面 我 们 已 经 提 到 ，Python 的 整个 虚拟 机 实际 上 都 是 由 PyFrame_EvalFramegx 实现 
的 。 在 剖析 虚拟 机 时 ， 我 们 展示 字 节 码 指令 的 实现 代码 的 方式 与 前 面 不 同 ， 不 再 列 出 代码 
所 处 的 文件 ， 而 仅仅 给 出 代码 是 哪个 字 节 码 指令 的 实现 代码 。 默 认 情况 下 ， 所 展示 的 代码 
都 位 于 ceval.c 的 PyFrame_EvalFrameEx 中 ， 如 果 有 例外 ， 我 们 会 给 出 代码 所 在 文件 的 文 
件 名 。 恋 者 如 需 对 照 Python 源 代码 ,比如 对 下 面 列 出 的 LoAD_coNsT 指令 的 实现 代码 ， 想 
对 照 Python 源码 中 源 代 码 ， 可 在 cevalc 中 搜索 字符 串 “LOaDp_CONST” 定 位 源码 位 置 。 


对 于 第 一 条 字 节 码 指令 LOAD_CONST 一 一 “0 LOAp_cONST 0”， 虚 拟 机 的 执行 动作 如 





其 中 ， GETITEM(consts, opargd) 显然 就 是 GETITEM(consts, 0)， 即 PyTuple_Get_ 
ITEM (consts，0)。LOAD_CONST 的 意图 很 明显 ， 就 是 从 sonsts 中 读 取 序号 为 0 的 元 素 ， 
然后 将 其 压 入 奸 拟 机 的 运行 时 栈 中 。 在 ByBval_EvalrrameEx 中 可 以 发 现 ，consts 实际 
上 就 是 FE->f_code->co_consts, 其 中 ff 是 当前 活动 的 pyFrameObject 对 象 ,那么 ,consts 
也 就 是 pycode0bject 对 象 中 的 co_consts (在 以 后 的 叙述 中 , 我 们 有 时 会 把 这 个 consts 
称 为 常量 表 )。 


对 照 图 9-1， 我 们 可 以 发 现 ，consts 中 的 第 0 个 元 素 是 一 个 整数 对 象 1， 这 也 是 





9-3 LOAD_CONST 之 后 的 虚拟 机 状态 
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第 一 条 字 节 码 指令 LOaD_coNsT 只 改变 了 运行 时 栈 ， 对 local 名 字 空间 没有 任何 影响 。 
但 是 按照 正常 的 猜测 ， 执 行 i = 1 这 个 表达 式 应 该 在 local 名 字 空 间 中 创建 一 个 从 符号 
“in 到 pyIntobject 对 象 1 的 映射 关系 ， 这 样 如 果 以 后 我 们 需要 使 用 符号 1， 才 能 寻找 
到 符号 i 所 对 应 的 对 象 。 Python 虚拟 机 通过 执行 字 节 码 指令 stTORE_NAME 来 改变 local 名 
字 室 间 ， 从 而 完成 变量 名 i 到 变量 值 1 之 间 上 映射 关系 的 创建 。 






下 人 | 


在 这 里 ， 我 们 只 考虑 local 名 字 空 间 (f->f_locals) 确实 是 pyDictobject 对 象 的 
情况 。 一 般 情 况 下 , E->f_locals 都 会 是 一 个 PyDictobject 对 象 。 字 节 码 指令 “3 STORE_ 
NAME 0” 首先 根据 指令 参数 从 符号 表 names 中 读 取 序号 为 0 的 元 素 作为 变量 名 ， 然 后 将 

“0 LOAD_CONST 0” 指 令 读 取 的 元 素 作为 变量 值 ， 将 (变量 名 ， 变 量 值 》 元 素 对 添加 到 
f->f_iocals 中 。 与 上 面 看 到 的 consts 类 似 ， 这 里 的 aames 实际 上 是 f=>f_code->co_ 
names (同样 与 consts 类似 ， 在 以 后 的 叙述 中 ， 我 们 有 时 将 names 称 为 符号 表 )。 这 里 的 
指令 参数 是 0， 对 照 图 9-1， 我 们 发 现 ，sToORE_NAME 获得 的 变量 名 确实 是 “i”。 

现在 我 们 可 以 很 清晰 地 看 到 Python 代码 中 变量 名 与 变量 值 在 内 存 中 是 通过 怎样 的 一 
种 方式 捆绑 在 一 起 的 了 。 指 令 “3 smorE_NAME 0” 完 成 后 的 虚拟 机 状态 如 图 9-4 所 示 。 
注意 ， 由 于 在 sToRE_NaME 指令 的 执行 过 程 中 ， 进 行 了 PoP 的 动作 ， 所 以 这 时 运行 时 枝 中 
已 不 存在 任何 对 象 了 。 


用 


图 9-4 STORE_NAME 之 后 的 虚拟 机 状态 
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simple_obj.py 中 第 1 行 代码 执行 完毕 ， 第 2 DI EA 1 
A 只 是 操作 的 参数 不 同 了 : 





图 9-5 展示 了 这 段 字 节 码 序列 执行 时 Python 虚拟 机 的 运行 时 栈 和 local 名 字 空 间 的 
动态 变化 过 程 ; 
E> 


和 项 和 
下 | 
LOAD _ CONST 1 STORE NAMR1 
图 9-5 s=“python” 执 行 过 程 中 虚拟 机 状态 的 转变 
在 simple_obj.py 的 第 3 行 , 我 们 见 到 了 一 点 新 鲜 的 东西 ， 在 这 里 ， 我 们 并 不 是 简单 地 
load 了 ， 而 是 凭空 创建 了 一 个 ByDictobject 对 象 ， 


一 一 一 人 








对 于 指令 “12 BUILD_MAP 0”，Python 虚拟 机 在 执行 指令 时 会 创建 一 个 空 的 PyDict- 
objecc 对 象 ， 并 把 这 个 对 象 压 入 到 运行 时 栈 中 ; 





细心 的 读者 一 定 发 现 了 ， 这 里 有 一 件 很 奇怪 的 事 ， 从 Python 源 代码 编译 出 的 字 节 码 
中 , 可 以 发 现 , BUTLp_Map 是 一 条 带 有 参数 的 字 节 码 指令 , 从 opcodeh 中 也 能 证 实 这 一 点 ， 
但 是 在 这 里 ， 我 们 根本 没有 看 到 使 用 这 个 参数 。 可 能 ， 这 又 是 “历史 遗留 ”问题 @。 

接 下 来 的 是 stors_NaMs 指令 ， 看 到 这 条 指令 ， 实 际 上 我 们 就 可 以 看 到 执行 完毕 后 的 
情形 了 ， 如 图 9-6 所 示 : 





STORE_ NAME2 
图 9-6 d= 执行 过 程 中 虚拟 机 状态 的 转变 


”对 于 simple_obj.py 中 最 后 一 行 Python 代码 ， 居 然 编译 出 了 4 条 字 节 码 指令 ， 
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对 于 指令 “19 BUIED_bIs? 0"， 我 们 猜想 它 所 执行 的 操作 会 与 auILD_MAB 指令 类 似 ， 
但 是 ，BUILD_LIST 更 好 ， 它 善待 了 字 节 码 指令 所 带 的 指令 参数 ， 真 正 利 用 了 这 个 参数 ， 
网 不 业 交 3 BUILD_MAP 那样 ， 仅 仅 做 个 摆设 : 





可 以 推测 ， 如 果 Python 源 代 码 中 创建 的 不 是 一 个 室 的 1ist， 那 么 在 BuILD_LIsT 指 
令 之 前 一 定 会 有 许多 LoAD_coNsT 的 操作 ， 这 将 导致 有 许多 对 象 被 压 入 运行 时 栈 中 , 在 真 
正 执行 BUILD_Ltsm 指令 时 ， 会 将 这 些 对 象 一 一 从 栈 中 弹出 元 素 ， 加 六 到 新 创建 的 
pyListobject 对 象 中 , 因为 这 些 对 象 其 实 就 是 1ist 中 的 元 素 , 这 一 点 我 们 后 面 会 详细 考 
察 。 

在 执行 了 接 下 来 的 字 节 码 指令 “21 STORE_NAME 3” 后 ， 似 乎 Mingle up py 中 指定 的 
所 有 工作 都 完成 了 ， 那 最 后 两 条 字 节 码 指令 的 作用 有 呢 ? 

原来 Python 在 执行 了 一 段 Code Block 后 ， 一 定 要 返回 一 些 值 ， 这 两 条 字 节 码 指令 就 
tii 





实际 的 返回 值 在 retval 中 ， 是 从 运行 时 栈 中 取得 的 ， 所 以 RETURN_VALUE 前 的 那 条 字 
节 码 指令 “24 Loap_coNST 2” 的 作用 就 很 清楚 了 ， 它 将 返回 值 压 入 运行 时 栈 中 ， 以 供 
RETURN_VALUE 使 用 。 可 以 看 到 ， 压 入 栈 中 的 返回 值 是 一 个 Noneobject， 实际 上 什么 有 价 
值 的 东西 也 没有 返回 ， 但 这 个 过 场 还 是 要 走 的 ， 不 走 ， 人 民 是 不 答应 的 人 @。 

在 Python 虚拟 机 执行 simple_obj.py 中 的 所 有 字 节 码 指令 的 有 瞬间， 运行 时 栈 变 空 了 ， 
所 有 有 用 的 信息 都 已 经 到 了 local 名 字 空 间 的 掌握 之 中 ， 如 图 9-7 所 示 : 
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图 9-7 ph 虚拟 机 结束 时 的 状态 


9.2 复杂 内 建 对 象 的 创建 | 


前 面 我 们 看 了 Python 是 如 何在 运行 时 创建 空 的 aict 对 象 和 空 的 1ist 对 象 的 ， 那 么 
如 果 是 创建 非 空 的 Gict 和 1ist，Python 的 运行 时 行为 又 是 如 何 的 呢 ? 这 个 问题 很 有 趣 ， 
我 们 通过 adv_obj.py 来 研究 : 





对 于 adv_obj.py， 在 Python 虚拟 机 运行 期 间 ， 它 所 对 应 的 符号 表 names (co_names) 
与 simple_obj.py 应 该 是 一 样 的 ， 而 常量 表 consts (co_consts) 应 该 和 simple_obj.py 是 不 同 
的 。 图 9-8 显示 了 与 adv -obj .py 对 应 的 co_consts 和 co_names: 


dt value="1" /> 
<intemStr index="0" length="6" value="Python" /> 
<internStr Index="4" length="1" yalue="1" /> 
<int value="2" /> 
<intemstr Index="2" length="1" value="2" /> 
<NoneObject /> 
</consts> 

- <names> 
<intemstr index="3" length="1" value="i" /> 
<internStr index="4" length="14" value="s" /> 
<internStr ndex="5" length=*1" value="d" /> 
<Intemstr Index="6" length="1" value=")" /> 





图 9-8 ”adv_obj.pyc 中 的 符号 表 和 常量 表 
在 编译 得 到 的 字 节 码 指令 序列 中 ， 前 两 行 Python 代码 的 字 节 码 序列 都 是 相同 的 ， 我 
们 不 再 考察 。 而 在 创建 非 空 的 ai ct 时 ， 字 节 码 序列 与 simple_obj.py 中 的 不 同 了 : 
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指令 “12 BUtLD_MaP 0” 我 们 已 经 知道 它 的 作用 了 ， 接 下 来 的 指令 “15 DUP_TOP” 
却 是 一 条 全 新 的 指令 。 对 于 这 条 指令 ，Python 虚拟 机 会 进行 如 下 的 动作 ; 





SH{(v): 

需要 注意 的 是 ，5UB_fOP 指令 不 只 是 增加 了 栈 顶 元 于 的 引用 计数 ， 还 将 栈 顶 元 素 又 一 
次 压 入 栈 中 。 如 此 看 上 去 ，puP 似乎 是 duplicate 的 缩写 。 这 一 动作 非常 诡异 ， 不 过 马上 
我 们 就 能 看 到 这 个 动作 的 用 意 。 由 于 在 puP_%oP 指令 之 前 是 一 条 “12 BUILD_MAE 0” 指 
令 , 所 以 会 将 创建 的 PyDictobject 对 象 的 引用 计数 增加 1, 并 再 次 压 入 该 PyDictobject 
对 得。 

紧 接 着 的 “16 LoaD_coNsT 0” 指 令 会 从 consts 中 将 需要 插入 到 PyDictObject 对 

成 后 的 情形 如 图 9-9 所 示 : 





图 9-9 ROT_TWO 之 前 虚拟 机 的 状态 
Python 虚拟 机 在 接 下 来 对 指令 “19 hom_?Wo” 的 执行 过 程 中 ， 会 做 一 些 奇 怪 的 动作 ; 







其 中 的 SET_TOP 等 宏 也 是 在 pyEval_EvalFrameEx 中 定义 的 : 







仔细 观察 后 我 们 发 现 ， 其 实 of_aWo 所 做 的 就 是 将 栈 顶 的 两 个 元 素 进行 对 调 。RoT_ 
Two 指令 完成 后 的 情形 如 图 9-10 所 示 。 
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9.2 ”复杂 内 建 对 象 的 创建 ”一 165 





图 9-10 ROT_TWO 之 后 虚拟 机 的 状态 


随后 的 一 条 “20 LOAD_CONST 2” 指 令 会 从 conats 中 将 需要 搬入 到 PyDictobject 
对 象 中 的 第 一 个 元 素 对 的 键 (<string “1*>) 读 取出 来 。 而 紧 随 的 “23 STORE_SUBSCR” 
指令 会 将 〈 键 ， 值 》 对 插入 到 pypictobject 对 象 中 去 : 






随 着 sracKapd 的 执行 ， 栈 顶 指针 回 退 了 3 格 ， 所 以 sroRE_sUBsCR 指令 执行 完 后 ， 
运行 时 栈 里 又 只 剩 下 了 最 初 由 BUILD_MAP 创建 的 PyDictobject 对 象 。 到 这 里 ，Python 
虚拟 机 就 完成 了 将 一 个 元 素 对 插入 到 PyDictobject 的 操作 。 剩 下 的 字 节 码 序列 以 (onxp_ 
coNsT、Rom_mWo、LOAD_CONST、STORE_SUBSsCR) 4 个 字 节 码 为 一 组 ， 每 组 的 目的 是 重复 
上 面 我 们 所 看 到 的 动作 ， 不 断 地 将 后 续 元 素 对 插入 到 PyDictobject 对 象 中 去 。 当 所 有 的 
元 素 对 的 插入 动作 都 完成 之 后 ， 将 由 我 们 的 老 朋 友 “33 STORE_NRME 2” 指 令 最 终 把 这 个 
pyDictobject 对 和 象 添加 到 local 名 字 空 间 中 去 ,并 为 其 关联 一 个 名 为 “G” 的 符号 。 当 所 





图 9-11 创建 PyDictObject 对 象 之 后 的 虚拟 机 状态 


在 成 功 创 建 了 非 空 pyDictobject 对 象 之 后 ，Python 虚拟 机 还 会 创建 一 个 非 空 的 
PyListObiject 对 象 : 
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对 照 图 9-8 所 示 的 常量 表 ， 可 以 看 到 ，Python 虚拟 机 确实 会 首先 将 应 该 填 六 PyList- 
object 对 象 的 元 素 先 从 consts 中 依次 读 入 , 并 压 入 运行 时 栈 。 然 后 如 之 前 描述 的 , Python 
虚拟 机 在 通过 Burtp_Lrsm 指令 创建 pyuistobject 对 象 之 后 ， 会 从 运行 时 栈 中 依次 将 对 
象 读 出 ， 从 后 至 前 地 将 它们 填 入 pyListobject 对 象 中 ， 


9.3 ”其 他 一 般 表 达 式 


到 了 这 里 ， 对 于 一 般 的 声明 语句 或 者 说 常量 赋值 语句 )， 我 们 都 已 经 了 如 指 掌 。 下 
面 ， 我 们 通过 研究 如 下 所 示 的 normal.py， 考 察 变量 赋值 、 变 量 运 算 及 最 基本 的 print 操 
作 ， 完 成 对 一 般 Python 语 名 的 剖析 工作 ; 





在 Python 编译 器 对 normalpy 的 编 详 成 功 结束 之 后 ， 其 对 应 的 pycodeobject 中 的 
co_consts 和 co_names 如 图 9-12 所 示 : 


|= <consts> 
<int value="S" /> 
<NoreObject /> 
</consts> 
- <Names> 
<NternStr index="0" length=" 1" valye="a" /> 
<internStr index="1" length="1" value="b" /> 
<internSr index="2" length="1" Value='c' /> 
</names> 


图 9-12 normal.pyc 中 的 常量 表 和 符号 表 





9.3.1 符号 搜索 


第 1 行 Python 代码 我 们 已 经 很 熟悉 了 ， 不 再 整 述 。 现 在 看 看 第 2 行 Python 代码 ， 变 
的 天 全 下 于、 





现在 ， es 3 STORE_NRME 1” 而 作用 我 们 已 清 起 : 而 对 于 指令 “0 Loap,_ NAME 
0”， 我 们 还 是 第 一 次 遇 到 【 匈 代码 清单 9-1)。 


Python 渡 码 章 新 一 一 深度 旅 黄 动 千 千言 蕉 心 摘 并 
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代码 清单 9-1 





STORE_NAME 指令 非常 简单 ， 但 没 想到 看 上 去 与 它 成 逆 运 算 的 LoAD_NAME 指令 却 会 如 
此 复杂 。 面 对 LOAD_NAME 指令 ， 首 先 ，Python 虚拟 机 会 从 符号 表 names 中 抽取 出 第 0 个 
元 素 , 参考 图 9-12 所 示 的 normal.py 编译 结果 ,可 知 它 是 一 个 pystringobject 对 象 “a”。 
然后 Python 虚拟 机 会 在 当前 活动 pyFrameobject 对 象 中 所 维护 的 多 个 名 字 空 间 中 进行 一 
系列 的 搜索 动作 ， 如 代码 清单 9-1 中 的 [1]、[2]、[3] 所 示 : 

[1 在 local 名字 空 间 三 locals 中 搜索 符号 “a” 

[2] 如 果 f_locals 中 没有 符号 "“a"， 则 在 global pe f_globals 中 搜索 “a”; 

[3] 如 果 E_globals 中 没有 符号 “a”， 则 在 Python 的 builtin 名 字 空 间 £_builtins 

中 搜索 “a”。 

如 打 搜 索 到 了 与 符号 “a "对 应 的 元 素 , 那么 就 将 该 元 素 压 入 运行 时 栈 中 。 在 normalpy 
这 个 例子 中 ,第 1 条 Python 代码 的 执行 会 在 £_loeals 中 插入 (*a”，5) 的 元 素 对 ， 所 以 
这 里 会 向 运行 时 栈 中 压 入 一 个 pyInt9gbject 对象 5。 

如 果 到 了 最 后 还 搜索 不 到 符号 “a”， 那 么 表示 有 错误 发 生 ， 程 序 引用 了 一 个 不 存在 的 
符号 。 那 么 Python 虚拟 机 的 执行 流程 最 终 会 到 达 代码 清单 9-1 的 [相处 ， 抛 出 异常 ， 
Python 虚拟 机 的 运行 。 


这 样 的 行为 正 是 Python 官方 文档 中 所 描述 的 变量 的 搜索 会 沿 着 局 部 作用 域 (local 
名 字 空 间 )、 全 局 作用 域 (global 名 字 空 间 )、 内 建 作用 域 (builtin 名 字 空 间 〉 依 次 上 
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济 ， 直 至 搜索 成 功 或 全 部 搜 完 3 个 作用 域 ， 也 就 是 我 们 之 前 提 到 的 LGB 规则 。 为 了 更 加 
形象 地 展示 这 一 符号 的 搜索 过 程 ， 我 们 采用 在 剖析 Python 对 象 机 制 时 ， 修 改 Python 源 代 
码 的 方法 ， 然 后 在 运行 时 实时 地 观察 这 一 过 程 。 


我 们 在 代码 清单 9-1 的 [、 上 四、[3]、[ 儿 处 各 添加 一 段 输 出 信息 ， 这 里 我 们 列 出 在 代 
码 清单 9-1 的 [1] 处 添加 的 输出 代码 ; 





由 于 我 们 在 这 里 使 用 IDLE 来 观察 输出 信息 ， 所 以 收 改 了 代码 之 后 ， 我 们 需要 自行 纺 
详 出 python25.dll 文件 。 注 意 ， 这 里 一 定 要 在 release 模式 下 编译 。 因 为 IDLE 程序 本 身 会 
使 用 Python 标准 库 中 的 socket module， 所 以 IDLE 初始 化 时 会 进行 import socket 的 动 
作 。 如 果 在 debug 模式 下 编译 得 到 python25_d.dll， 那 么 在 import socket 时 ， 就 会 寻找 
_socket_d.pyd， 这 意味 着 我 们 还 得 继续 编译 socket 工程 。 所 以 我 们 选择 在 release 模式 下 编 
译 python25.dll， 因 为 当 你 在 机 器 上 安装 Python 后 ，_socket.pyd 已 经 在 Python 安装 目录 下 
的 dl 子 目 录 中 存在 了 。 


在 编译 完成 之 后 ,我们 将 python25.dll 拷贝 到 Python 的 安装 目录 下 。 由 于 Python 安装 
时 是 将 python25.dll 拷贝 到 了 system32 目录 下 ,所 以 对 于 python25.dll, 直接 拷贝 就 可 以 了 。 
图 9-13 显示 了 一 次 失败 的 符号 搜索 过 程 。 


>>> prinv Python 
[LOAD NAME] : Search Fystrinobiact pythonV in local name Space... False 
[LOAD NAME] : Search pystrinobject PythonVM in global name space... False 
[LOAL NAME] : Search pystrinobiect Eythonv in builtin name Space... False 
: Search failed, throw exception 












Traceback (most recent call Jast): 

File "<pyyshell#0>", line 1, in <module> 
print Pythonvi 

NameBprror: name PythonyM' i3 not dafined 


图 9-13 ”搜索 符号 “PythonVM” 失 败 
现在 很 清楚 了 ， 在 “b = a” 执行 完成 后 ， Python ee iil 9-14 所 示 : 


让 


图 9-14 b=a 执行 之 后 的 虚拟 机 状态 
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9.3.2 ”数值 运算 
从 前 面 我 们 对 byzntobject 对 象 的 分 析 可 以 知道 ， 这 两 个 $ 实际 上 指向 内 存 中 的 同 


一 个 pyintobject 对 象 。 这 里 在 对 字 节 码 指令 的 分 析 中 ， 我 们 再 次 看 到 了 这 一 结论 。 现 
在 a，b 都 是 合法 而 有 效 的 变量 了 ， 它 们 的 结合 就 变 得 很 有 趣 了 : 






Python 虚拟 机 首先 会 通过 两 条 LOAD_NaME 指令 将 变量 名 a 和 5 所 对 应 的 变量 值 从 
local 名 字 空 间 中 读 取 出 来 ， 压 入 运行 时 栈 ， 然 后 通过 BINARY_ADD 指令 进行 加 法 运算 ， 
计算 两 个 变量 的 和 .假设 加 法 运算 的 结果 为 num 那么 Python 礁 拟 机 在 获得 结果 num 之 后 ， 
会 通过 指令 sroRE_NaME 将 〈“c”，num) 元 素 对 插入 到 local 名 字 空 间 中 。 这 里 展示 的 
是 变量 之 间 的 加 法 运算 ， 当 然 ， 这 里 的 加 法 运算 实际 上 完全 可 以 替换 成 减法 运算 、 情 法 运 
算 ， 有 兴趣 的 读者 可 以 自行 考察 一 下 其 他 运算 所 对 应 的 字 节 码 指令 。 

现在 我 们 感 兴 趣 的 是 那个 从 两 个 现 有 对 象 创造 出 新 的 对 象 的 “18 BINARY_ADD” 指 令 ， 
如 代码 清单 9-2 所 示 。 
代码 清单 9-2 








Ar Lh 
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Fy_ DECREF (w); 几 jean i et 
‘SET_TOP (A) ™ 贡 基 局 入 .| 本 
break; z Ue EE 


想不到 一 个 简 简 单单 的 “加 法 ”竟然 会 有 如 此 复杂 的 实现 过 程 。 在 BINRRY_ADD 指令 
的 实现 中 ，Python 虚拟 机 为 对 象 之 闻 的 加 法 运算 建立 了 两 条 通道 ， 一 条 快速 通道 ， 一 条 慢 
速 通道 。 快 速 通道 仅仅 是 为 pyIntobject 对 象 和 PyStringobject 对 象 准备 的 ， 而 其 他 
的 对 象 都 必须 通过 慢 速 通道 完成 加 法 运算 ， 

在 代码 清单 9-2 的 [ 品 处 可 以 看 到 ， 如 果 参 与 运算 的 两 个 对 象 都 是 pyIntobjact 对 象 ， 
会 直接 将 pyIntobject 中 的 value 提取 出 来 相 加 ， 然 后 根据 相 加 的 结果 创建 新 的 
pyIntobject 对 象 作为 结果 返回 ; 同样 , 在 代码 清单 9:2 的 [3] 处 ,如 果 是 ByStrzingobject 
对 象 之 间 相 加 ，Python 弄 拟 机 也 会 选择 string_concatenate 以 加 快速 度 。[1] 和 [3] 处 就 是 
Python 典 拟 机 所 提供 的 两 条 快速 通道 。 


如 果 参 与 运算 的 对 象 在 这 两 种 有 加 速 机 制 的 情况 之 外 ， 那 它们 只 能 通过 慢 速 通道 
PyNumber_Add 完成 加 法 运算 。 在 pyNumber_Add 中 ，Python 虚拟 机 会 进行 大 量 的 类 型 判 
断 ， 寻 找 与 对 象 相对 应 的 加 法 措 作 函数 等 额外 工作 ， 速 度 会 比 前 两 种 加 速 机 制 慢 很 多 。 一 
般 来 说 ，Python 虚拟 机 在 pyNumber_ada 中 会 首先 检查 参与 运算 的 对 象 的 类 型 对 象 ， 检查 
pyNumberMethods 中 的 nb_aaa 能 否 完成 在 v 和 w 上 的 加 法 运算 如果 不能 ， 还 会 检查 
pySegquenceMethods 中 的 Sd concat 能 否 完 成 ， 如 果 都 不 能 ; Python 虚拟 机 也 是 有 心 杀 
敌 ， 无 力 回 天 了 ， 那 也 只 好 报告 错误 了 。 


值得 注意 的 是 ， 虽 然 Python 虚拟 机 为 pyIntobject 对 象 准备 了 快速 通道 ， 但 是 当 加 
法 运算 的 结果 发 生 溢出 时 ，Python 虚拟 机 会 放弃 快速 通道 计算 的 结果 ， 转 向 慢 速 通道 。 因 
为 快速 通道 只 能 产生 另 一 个 pytntobject 对 象 作 为 加 法 运算 的 结果 ， 而 当 汶 出 发 生 时 ， 
就 意味 着 我 们 需要 一 个 bytongobject 对 象 作为 结果 了 ， 这 个 pyLongobjact 对 象 的 创建 
只 能 在 慢 速 通道 中 完成 。 因 为 在 慢 速 通道 中 ， 加 法 运算 会 委托 给 FyIntobjact 对 象 的 类 
型 对 象 中 所 定义 的 加 法 操作 ， 在 那里 会 处 理 洪 出 的 情况 。 为 了 实时 地 看 到 这 一 过 程 ， 我 们 
像 前 面 一 样 ， 在 BINARY_ADD 指令 的 实现 代码 中 加 入 输出 信息 ， 重 新 编译 python25.dll， 利 
用 IDLE 来 观察 输出 结果 。 输 出 的 结果 如 图 9-15 所 示 : 


[BIMARY RDD : ”THf=Z” in quick channsl.s: BUuccess 
-了 

>» BH DxEFETTEFE 

>>> b = HH 


[BINARY ADD] : "L879048191+1879048191" tn quick channel... overflowt! 
[BINARY ADD] : ILIB79046191f18790 志 8 于 9Tw swWwitch to slow channel... 

>»>> PHNtC b 

3150095382 

>>> typet{b) 

<type 'long'> 





9-15 ”加 法 指令 的 两 条 通道 
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从 两 条 加 法 通道 的 结构 我 们 可 以 看 出 , Python2.5 实际 上 假设 了 用 户 在 使 用 Python 时 ， 
通过 操作 符 “+” 大 量 进行 的 加 法 操作 是 整数 的 加 法 和 字符 串 的 连接 。 其 实 如 果 你 的 程序 
中 涉及 了 大 量 的 浮 点 运算 ， 完 全 可 以 修改 BINARY_ADD 的 代码 ， 为 浮 点 加 法 运算 建立 快速 
通道 。 实际 上 , 对 于 加 、 减 、 蔷 、 除 这 些 操 作 ， 你 都 可 以 根据 自己 程序 的 实际 情况 对 Python 
的 代码 进行 改动 ， 这 样 的 改动 应 该 对 提升 程序 运行 效率 有 很 大 的 好 处 。 


9.3.3 ”信息 输出 


最 后 来 看 一 看 print 的 动作 ， 前 面 分 析 的 字 节 码 指令 都 是 Python 自身 的 动作 ， 这 个 
Ee t 则 是 ss 与 用 户 的 交互 ， 也 是 Python 中 最 常用 和 易 用 的 用 户 交互 方式 : 





如 果 想 要 输出 什么 对 象 ， 那么 一 定 先 要 获得 它 , 与 print 语句 相对 应 的 第 一 条 字 节 码 
指令 的 任务 就 是 获取 需要 输出 的 对 象 。Python 虚拟 机 通过 指令 “22 LOAD_NAME 2” 从 local 
名 字 空 间 中 将 加 法 运算 的 结果 c 读 取出 来 , 压 入 运行 时 栈 , 然后 通过 指令 “25 pRINT_ITEM” 
i ben 





风 际 上 粕 测 前 时 想 人 进入 生根 风 动作， 但 是 在 这 里 ， 我 们 只 考虑 其 大 致 的 流程 。Python 
虚拟 机 首先 会 将 待 输出 的 对 象 从 运行 时 栈 中 取出 ， 然 后 对 一 个 名 为 stream 的 东西 进行 判 
断 ， 如 果 stream 为 NOLL， 则 将 w 设 为 标准 输出 流 。 这 个 scream 是 什么 呢 ? 它 实际 上 也 

2 ee ect i 





op ee brint >> file, ”SEC 那么 所 产生 
的 字 节 码 序列 中 ， 在 pRINT_TTrENM 之 前 还 有 一 条 字 节 码 指令 一 一 BRINT_ITEM_TO: 








ee 
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显然 ， 这 时 在 运行 时 栈 中 ， 在 待 输出 对 象 之 前 ， 还 会 有 一 个 对 象 ， 即 输出 的 目标 。 在 
执行 PRINT_ITEM_TO 时 ， 输 出 的 目标 就 赋 给 了 stream， 同 时 也 赋 给 了 w。 所 以 实际 上 
stream 是 作为 一 个 判断 条 件 来 使 用 的 ， 真 正 使 用 的 输出 目标 是 w。 要 多 次 使 用 这 一 个 
stream 的 原因 是 变量 w 在 别 的 字 节 码 指令 的 实现 中 可 能 还 会 使 用 到 , 所 以 无 法 通过 判断 w 
是 否 为 NULL 来 确定 是 否 需 要 输出 到 标准 输出 流 。 可 以 看 到 ， 在 eRiNm_rtreM 最 后 ， 又 将 
stream 设 为 了 NULE， 为 下 次 输出 时 的 判断 做 准备 。 

9-16 给 出 了 在 PRINT_ITEM 中 输出 目标 的 两 种 情况 : 


>>> print 1 
w is a file with name : <stdout》’ 











>>> 天 = openl demo, txt ‘ww ) 
>> print >> ff 1 
is a file With name ; " demo. txt 


图 9-16 PRINT_ITEM 中 w 所 代表 的 两 种 输出 目标 


在 获得 了 输出 的 目标 和 待 输出 的 对 象 后 ，PRINT_ITEM 将 通过 pygile Writeobject 
-> PyObject_Print -> internal print 的 调用 序列 最 终 调用 V->0b_type->tp_ print, 
等 待 输 出 对 象 自身 所 携带 的 输出 函数 进行 输出 。 如 果 对 象 没有 定义 tp_print， 那 么 它 会 
先 调用 tp_str 或 tp_repr 获得 对 象 的 字符 串 表 示 形 式 ， 然 后 将 字符 串 输出 。 如 果 连 这 最 
后 的 救命 稻草 也 失败 了 ，Python 也 无 能 为 力 了 ， 只 好 返回 失败 信息 。 
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CHHAPTER 





在 上 一 章 ， 我们 谢 析 了 Python 虚拟 机 中 的 一 般 表 达 式 的 实现 。 在 前 析 一 般 表 达 式 时 ， 
我 们 所 考察 的 程序 的 流程 都 是 顺序 执行 的 ， 在 执行 的 过 程 中 没有 任何 变化 。 在 几 年 前 风靡 
全 球 的 好 莱 坞 巨 片 《Matrix》 中 ， 片 中 人 物 之 间 曾 有 诸多 关于 “控制 “选择 ”等 概念 的 
对 话 。 一 个 只 会 顺序 执行 的 程序 是 没有 什么 趣味 的 ， 所 有 的 现代 编程 语言 中 ， 都 提供 了 控 
制程 序 流程 的 语义 元 素 ， 在 C 中 甚至 还 有 像 goto 这 样 的 瞬间 超 距 移动 语义 。 在 本 章 中 ， 
我 们 将 剖析 Python 中 所 提供 的 所 有 的 流程 控制 手段 ， 其 中 包含 了 异常 机 制 。 


10.1 Python 虚拟 机 中 的 于 控制 流 


10.1.1 研究 对 象 一 一 if_control.py 


在 所 有 的 编程 语言 中 ，if 撞 制 流 是 最 简单 也 是 最 常用 的 流程 控制 语句 。 在 这 一 节 , 我 
们 将 通过 对 如 下 所 示 的 ffcontrol.py 的 研究 来 深入 剖析 Python 对 选择 控制 语句 的 实现 。 






在 让 controlpy 中 ， 我 们 除了 剖析 Python 虚拟 机 中 对 if 控制 流 的 实现 之 外 ， 还 会 章 
析 Python 虚拟 机 中 对 比较 操作 的 实现 ， 所 以 在 让 control.py 中 ， 我 们 列 出 了 Python 所 支 
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持 的 几乎 所 有 的 判断 操作 。 

根据 我 们 现在 对 Python 编译 器 的 工作 过 程 的 了 解 ， 我 们 知道 ， 在 Python 编译 器 完成 
对 让 _control.py 的 编译 之 后 ， 只 会 得 到 一 个 pycodeObject 对 象 。 这 个 pycodeobject 对 
象 中 所 包含 的 与 证 control.py 所 对 应 的 常量 表 (co_consts) 和 符号 表 (co_names) 如 图 
10-1 所 示 : 







<int valus="”1"/> 
<int value="10"/> 

<atr Jength="6" value="s > -1"/> 
<int value="-2"/> 

《atr length="7?" value="a <= -2"/> 
<atr langth="6" value="a /= 1*/> 
<str liangth="6" valie="a 三 = > 
<sty 1angth="9" value="Unknown a"/> 
<NonasObjaect/> 









2 trdex="D" length="L" valua="ad"/> 
图 10-1 if_control.pyc 中 的 常量 表 和 符号 表 
在 让 controlpy 中 ， 第 一 行 代码 是 我 们 已 经 非常 熟悉 的 了 。 第 一 行 代码 执行 的 结果 会 
在 当前 活动 的 ByFrameobject 对 象 的 local 名 字 空 间 内 添加 一 个 名 为 “av" 的 符号 ， 且 其 
关联 着 一 个 pyIntobject 对 象 。 


对 于 其 后 的 i5 控制 流 部 分 ， 编 译 所 得 的 字 节 码 指令 序列 如 下 所 示 : 





注意 ; 字 节 码 指令 序列 的 顺序 是 从 左 到 右 ， 从 上 到 下 、. 
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10.1.2 ”比较 操作 


与 其 他 的 程序 设计 语言 相同 ，Python 中 的 if 控制 语句 也 是 通过 一 个 判断 来 控制 程序 
的 流程 的 。 在 if 语 名 处， 根据 判断 结果 的 不 同 ， 程 序 将 选择 向 左 走 还 是 向 右 走 。 选 择 不 
同 的 道路 ， 就 有 可 能 经 历 不 同 的 计算 过 程 ， 最 终 导致 不 同 的 计算 结果 。 所 以 ， 判断 操作 对 
于 程序 流程 的 控制 至 关 重 要 。 其 实 不 仅仅 是 对 于 if 控制 语句 ， 对 于 其 他 的 流程 控制 语句 ， 
判断 也 是 关键 的 一 环 ， 这 一 点 我 们 将 在 以 后 看 到 。 

在 进行 程序 设计 时 ,判断 主要 就 是 对 两 个 对 象 进行 比较 ,判断 的 结果 也 就 是 比较 的 结 
果 。 所 以 在 本 章 的 描述 中 ， 判 断 和 比较 这 两 个 概念 是 可 以 互相 蔡 换 的 。 现在 ， 我 们 就 以 比 
较 操 作为 切入 点 ， 开 始 进入 对 iF 控制 流 的 剖析 。 

仔细 观察 认 control.py 中 的 各 个 判断 分 支 语句 , 我 们 发 现 它们 经 Python 编译 器 编译 后 
都 呈现 出 同样 的 字 节 码 指 令 序列 结构 : 
> ”执行 LoAD_NAME 指令 ， 从 local 名 字 空 间 中 获得 变量 名 a 所 对 应 的 变量 值 ; 
> ”执行 Zoap_coNST 指令 ， 从 常量 表 consts 中 读 取 参与 该 分 支 判断 操作 的 常量 对 象 ， 
> 执行 comPaRE_oP 指令 ， 对 前 面 两 条 指令 取得 的 变量 值 和 常量 对 象 进行 比 较 操 作 ; 
> ”执行 某 一 条 IOMP_* 指 令 , 根据 coMPARE_oP 指令 的 运行 结果 进行 字 池 码 指令 的 跳跃。 

可 以 看 到 ,不 同 的 分 支 判断 语句 编译 后 都 是 这 样 相同 的 指令 序列 结构 ， 但 是 不 同 的 分 
支 判断 语句 进行 的 是 不 同 的 比较 操作 。 显 然 在 相同 的 指令 序列 结构 中 ， 应 该 有 某 个 细节 的 
地 方 有 所 不 同 。 通 过 观察 ， 我 们 发 现 不 同 的 分 支 判断 在 调用 couPARE_oP 指令 时 ， 传 入 的 
指令 参数 确实 是 不 同 的 。 所 以 ，coMPARE_OP 指令 的 指令 参数 实际 上 也 就 是 区 分 这 些 不 同 
分 支 判断 的 关键 所 在 。 实 际 上 ，coMPaRE_oP 的 不 同 指令 参数 对 应 了 不 同 的 比较 操作 。 这 
入 玉 \ 同 的 0 objecth 中 定义 : 
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从 让 _control.py 编译 的 结果 可 以 看 出 ， 判 断 a 、10 对 应 的 compaRE_op 的 指令 参数 
是 才 ， 即 PyCmp_GT， 正 是 Greater 的 缩写 ; 而 PyCmrp_ LE 是 less and egual 的 缩写 ， 所 
以 判断 a <= -2 对 应 的 compaRE_op 指令 的 指令 参数 正 是 1。 


10.1.2.1 COMPARE_OP 指令 


了 解 了 Python 中 不 同 的 比较 操作 所 对 应 的 指令 参数 之 后 ， 我 们 可 以 深入 到 Python 虚 
拟 机 中 通用 的 用 于 比较 操作 的 字 节 和 码 指令 一 -coMpaRE_op 中 了 ( 见 代码 清单 10-1)。 
代码 清单 10-1 











和 我 们 在 上 一 章 所 看 到 的 BINARY_aDp 指令 一 样 ，Python 虚拟 机 在 COMEARE_oP 指令 
的 实现 中 为 PyIntobject 对 象 建立 了 快速 通道 。 如 果 参 与 比较 操作 的 两 个 对 象 都 是 


ee  --- 
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PyintObject 对 象 ， 那 么 直接 取得 PyIntobject 对 象 中 维护 的 整数 值 进行 比较 即 可 。 从 
代码 清单 10-1 中 可 以 清晰 地 看 到 , Python 正 是 通过 cowPaRE_oe 指令 的 不 同 指令 参数 来 选 
择 不 同 的 比较 操作 的 。 

如 果 参 与 比较 的 两 个 对 象 不 全 是 pyInt.object 对 象 ， 很 不 幸 ， 只 能 进入 Python 虚拟 
机 为 比较 操作 准备 的 慢 速 通道 ， 调 用 cmp_outcome 进行 常规 的 比较 操作 。 这 个 常规 的 比 
较 操作 与 pyIntobject 对 象 的 快速 通道 相 比 ， 执 行 效率 真是 有 天 壤 之 别 ， 马 上 我 们 就 可 
以 看 到 了 : 










在 cmp_outcome 的 实现 代码 中 , 实际 上 透露 了 另 一 个 信息 , 即 Python 的 coMpaRg op 
指令 不 仅 管辖 着 两 个 对 象 之 间 比 较 操作 ， 而 且 还 覆盖 了 对 象 与 集合 之 间 关系 的 判断 操作 。 
比如 下 面 的 Python 代码 ; 





178 日 第 10 章 ”Python 虚拟 机 中 的 控制 流 





LD | i 
bh 5 .i I | ’ 0 Ml L 


在 第 2 行 代 码 编译 后 的 字 节 码 指令 序列 中 我 们 发 现 ， 其 中 的 in 操作 符 最 终 也 会 被 纺 
译 为 CoMPARE_OP 指令 ， 而 指令 的 参数 则 是 pycmp_IN。 所 以 ，cmp_outcome 实际 上 主要 
是 处 理 这 些 广义 上 的 比较 操作 ， 甚 至 还 包揽 了 is 操作 符 的 实现 。 对 于 pycom_IN 操作 ， 
com_outcom 会 委托 给 pysequence_Containes 来 判断 在 序列 对 象 w 中 是 否 存在 对 象 v; 而 
对 于 通常 意义 上 的 两 个 对 象 之 间 的 大 小 关系 的 比较 操作 ，com_outcome 委托 给 Byobject_ 


RichCompare 进行 。 


在 pyobject_Richcompare 中 ， 首 先 会 确保 执行 的 比较 操作 在 py_LT 和 BEy_GE 之 间 ， 
即 常规 意义 上 的 比较 操作 。 如 果 进 行 比较 操作 的 两 个 对 象 类 型 相同 ， 且 这 两 个 对 象 不 是 用 
户 自 定义 的 类 的 实例 对 象 ， 那 么 首先 会 选择 对 象 对 应 的 pyTypeobject 对 象 中 所 定义 的 
tp_richcompare 操作 ; 如果 类 型 对 象 没有 定义 这 个 动作 ， 就 选择 类 型 对 象 中 定义 的 
cp_compare 操作 。 在 Python 中 , 无 论 是 Python 内 建 对 象 , 还 是 用 户 自 定义 的 类 的 实例 对 
象 ， 其 比较 操作 都 是 在 各 自 对 应 的 类 型 对 象 中 的 tp_richcompare 或 tp_compare 中 定义 
的 。 如 果 这 两 个 操作 都 没有 成 功 ， 那 么 Python 还 不 死心 ， 还 会 调用 do_richemp 进行 垂死 
挣扎 @。 

到 了 这 里 ， 如 果 继 续 剖 析 ， 我 们 就 将 陷入 Python 中 复杂 的 对 象 比较 体系 了 ， 这 里面 
所 进行 的 动作 错综复杂 ， 看 上 去 Python 是 要 想方设法 地 进行 比较 。 这 种 不 到 黄河 不 死心 
的 寻求 比较 的 行为 会 影响 比较 操作 的 效率 ， 使 得 慢 速 通道 与 针对 整数 的 快速 通道 相 比 ， 效 
率 上 有 很 大 的 差别 。 在 我 个 人 看 来 , 实在 有 点 过 设计 的 味道 , 可 能 这 也 是 历史 遗留 的 问题 。 
我 们 就 在 这 里 止步 吧 , 不 再 深入 Pyton 的 对 象 比较 体系 了 , 有 兴趣 的 朋友 可 以 深入 追 下 去 ， 


10.1.2.2 ”比较 操作 的 结果 一 一 Python 中 的 bool 对 象 


我 们 可 以 略 过 Python 的 对 象 比较 体系 ， 但 是 对 于 比较 操作 的 返回 结果 需要 着 重 研究 
一 下 。 在 其 他 编程 语言 中 ， 比 较 操作 的 结果 通常 会 是 一 个 boot 值 ， 即 使 在 没有 内 建 pocl 
值 的 C 中 ， 也 会 使 用 1 和 0 来 代替 bool 值 。Python 虚拟 机 中 也 有 这 样 两 个 对 立 而 统一 的 
代表 成 功 和 失败 的 对 象 ， Py_True 和 Py_False。 注 意 ， 我 说 这 两 个 东西 是 对 象 ， 没 错 ， 
这 两 个 也 是 名 副 其 实 的 Pyobject 对 象 。 
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和 C 语言 所 采用 的 策略 类 似 ，Python 也 是 利用 两 个 PyIntobject 对 象 来 充当 bool 





了 解 了 Python 中 比较 操作 的 返回 值 之 后 ， 我 们 通过 图 10.2 看 一 下 从 5E a > 10 开始 
执行 ， 到 coupRE_OP 指令 完成 时 这 一 段 时 间 内 运行 时 栈 的 变化 情况 。 因 为 在 后 面 ， 我 们 
马上 就 会 需要 利用 比较 操作 的 结果 来 进行 指令 的 跳跃 了 ， 那 又 将 是 务 一 个 有 趣 的 话题 。 


站- 辣 月 下 


LOAD NAME COMPARE_ OP 
图 10-2 ”比较 操作 过 程 中 运行 时 栈 的 变化 


10.1.3 ”指令 跳跃 


在 证 controlLpy 中 ， 如 果 第 一 个 判断 a > 10 成 立 ， 那 么 会 执行 接 下 来 的 print 语句 ; 
加 果 判 断 不 成 立 ， 则 应 该 跳 过 print 语句 ， 执行 下 一 个 判断 a 天 = 一 2 所 以 这 里 有 一 个 指 
令 跳跃 的 动作 Python 虚拟 机 中 的 字 节 码 指令 跳跃 是 如 何 实现 的 呢 , 潜 秘 就 在 COMPARE_OP 
指令 的 实现 中 最 后 的 那个 BREDICT 宏 。 
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define PEEKARG() ((next_ instr{2}<<8) + next +nstr[til 
在 Python 中 ， 有 一 些 字 节 码 指令 通常 都 是 成 对 出 现 的 ， 更 准确 地 说 是 顺序 出 现 的 ， 
这 就 为 根据 上 一 个 字 节 码 指令 直接 预测 下 一 个 字 节 码 指令 提供 了 可 能 。 比 如 cowpaRE_op 
的 后 面 就 通常 会 紧 跟 JuMp_IF_FALSE 或 uUMP_ITF_mRUE， 这 一 点 在 寺 control.py 中 可 以 很 
清晰 地 看 到 。 而 且 通 常 在 它们 的 后 面 ， 还 会 紧 跟 着 一 个 Pop_TOP 指令 。 


因此 Python 虚拟 机 中 提供 了 这 样 的 字 节 码 指 令 预 测 功 能 ， 如 果 预 测 成 功 ， 那 么 会 省 
去 很 多 无 谓 的 操作 ， 使 执行 效率 获得 提升 。 尤 其 是 当 这 种 字 节 码 指令 之 间 的 搭配 关系 出 现 
的 概率 非常 高 时 ， 效 率 的 提升 尤其 显著 。 

我 们 可 以 看 到 ，pREDICT (JUMP_IF_FALSE)， 实 际 就 是 直接 检查 下 一 条 待 处 理 的 字 节 
码 是 否 是 JuMP_IF_salsg。 如 果 是 ， 则 程序 流程 会 跳 转 到 BRED_JUMP_IF_FALSE 标识 符 
对 应 的 代码 处 。 将 coOMPARE_OP 的 实现 中 的 BREDICT 宏 展开 ， 我 们 可 以 将 这 个 过 程 看 的 更 
清楚 : 







那么 PRED_JUMP_IF_FALSE 和 PRED_JUMP_IF_mRUBE 这 些 标识 符 在 何 处 呢 ? 我 们 知道 
指令 跳跃 的 目的 是 为 了 绕 过 一 些 无谓 的 操作 , 直接 进入 JUMP_IF_FALSE 或 JUMP_IF_TRUE 
的 指令 代码 ， 那 么 很 显然 ， 这 些 宏 应 该 位 于 JUMP_IF_FALSE 指令 或 JUMP_IF_TRUE 指令 
对 应 的 case 语句 之 前 。 

让 control.py 中 , 在 ifa>I0 这 条 判断 编译 后 的 字 节 码 序 列 中 ， 存 在 JUMP_IF_FALSE 
指令 ， 那 么 在 coMPARE_OP 指令 的 实现 代码 的 最 后 ， 将 执行 goto PRED_JUMPp_IF_FALSE。 
所 以 在 这 里 ,我 们 就 来 看 看 PRED_JUMP_IF_FALSE 标识 符 是 如 何 被 放 短 到 JuMp_IF_FaLSE 
指令 代码 之 前 的 〈 见 代码 清单 10-2)。 


代码 清单 10-2 
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当 程 序 的 执行 流程 跳 转 到 PRED_JUMP_IF_FALSE 处 时 , 首先 会 通过 pggKaRG1) 从 字 节 
码 指令 序列 coae 中 取出 JUMP_IF_FALSE 指令 的 指令 参数 , 这 个 指令 参数 指示 了 当 某 个 条 
件 满足 时 Python 虚拟 机 会 向 前 跳跃 的 字 节 码 指令 数 。 这 一 点 在 后 面 会 清晰 地 展示 出 来 。 
现在 我 们 只 需要 记 住 ， 这 里 ， 我 们 取 了 一 个 指令 参数 。 


值得 注意 的 是 ， 在 PEakaRG 之 后 ，Python 将 字 节 码 指针 向 前 移动 了 3 个 字 节 的 长 度 。 
仔细 想 一 下 ， 在 coMPARE_oP 指令 的 实现 中 ，PREDICm (JUMp_+F_FALSE) 处 只 是 判断 下 
一 条 字 节 码 是 否 是 JUMP_IF_FALSE, 并 没有 移动 next_instr。 而 在 接 下 来 的 pEEkaRG 中 ， 
我 们 获得 了 TUMP_IF_FALSE 的 指令 参数 ， 也 没有 移动 next_instr，, 所 以 这 时 当 确 认 应 该 
执行 JUMP_IF_FALSB 时 ， 我 们 必须 将 字 节 码 指针 移动 到 yump_rF_FALsE 之 后 的 下 一 条 字 
节 码 ， 因 为 这 时 我 们 已 经 开始 处 理 ruxP_rF_FarLsE 了, 而 next_instr 的 使 命 是 指出 下 一 
条 指令 是 什么 。 一 个 字 节 码 长 度 为 1 个 字 节 ， 而 字 节 码 的 参数 都 是 2 个 字 节 ， 所 以 这 里 需 
要 将 next_instr 向 前 移动 3 个 字 节 。 


在 执行 JuMP_IF_FALSE 指令 时 ， 首 先 会 在 代码 清单 10-2 的 [处 取出 运行 时 栈 中 栈 项 
的 对 象 ， 根 据 前 面 的 分 析 ， 这 时 是 一 个 py_False。 然 后 ， 就 会 根据 这 个 对 象 进行 不 同 的 
动作 。 

因为 我 们 现在 执行 的 是 auMP_TF_FALSE 指令 ， 换 名 话说， 就 是 “如 果 为 false， 则 
跳跃 ”指令 。 所 以 如 果 代码 清单 10-2 的 [1] 处 得 到 的 w 是 一 个 py_False， 那 么 很 好 ， 匹 本 
上 了 ， 就 进行 跳跃 的 动作 : 
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跳跃 的 距离 就 是 woMP_fF_FabsE 的 指令 参数 , 在 这 里 是 9。 在 第 一 节 所 展示 出 的 字 节 
码 指令 序列 中 , JUMP_IF_FALSE 那 一 行 的 第 4 列 形 象 地 给 出 了 该 条 指令 的 结果 是 “to27”。 
我 们 查看 一 下 所 有 字 节 码 指令 所 在 行 的 第 1 列 ， 发 现 第 1 列 为 27 的 指令 是 “27 BOP_Top" 
指令 。 

现在 有 个 问题 ， 这 个 9 是 如 何 确定 的 昵 。 按 照 正 常 的 程序 流程 ， 当 a > 10 的 判断 失 
败 后 ， 会 进行 下 一 个 判断 a <= -2， 这 个 判断 的 第 一 条 字 节 码 指令 应 该 是 “28 LOAD_NRME 
0”， 与 当前 字 节 码 指针 next_instr 所 指向 的 “18 PoP_rop” 之 间 的 距离 为 10( 字 节 码 
1 个 字 节 ， 参 数 2 个 字 节 )， 如果 跳跃 距离 为 9， 那 么 确实 就 会 跳 到 print 语句 的 最 后 一 条 
字 节 码 指 令 “27 FOP_YTOB” 上 。 


仔细 想 一 想 ， 其 实 这 才 是 正确 的 行为 。 因 为 在 JUMP_IF_FALSE 的 开始 ， 是 通过 ToP 
抽取 运行 时 栈 中 的 对 象 的 ， 所 以 现在 那个 py_Faise 还 停留 在 栈 中 ， 在 进行 新 的 判断 动作 
之 前 ， 需 要 将 这 个 对 和 象 从 栈 中 弹出 ， 打 扫 干 净 屋子 ， 才 好 迎接 新 的 窜 人 人 @。 

如 果 JUMP_IF_FALSE 执行 时 从 栈 中 得 到 的 对 和 象 是 一 个 Ey_True， 这 实际 上 意味 着 判 
断 a>10 是 成 立 的 , 所 以 接 下 来 就 会 执行 print 语句 。 再 次 利用 PREDICT 宏 , 对 boP_mop 
指令 进行 预测 ， 快 速 进行 运行 时 栈 的 清理 工作 ， 并 为 print 的 执行 做 好 准备 。 













在 JUMP_IF_FALSE 的 指令 代码 之 前 ,有 一 个 PREDICTED_WITH_ARG 宏 , 而 在 BoP_TOP 
的 指令 代码 之 前 ， 出 现 的 却 是 一 个 bRBDICTED 宏 。 正 如 它们 的 名 字 所 显示 出 来 的 区 别 ， 
这 两 个 宏 分 别处 理 有 参 指令 和 无 参 指令 两 种 情况 .PREDICTED_WITH_ARG 宏 处 理 有 参 指令 ， 
一 定 会 放置 在 有 参 指 令 之 前 ， 比 如 JUMP_IF_FALSE; 而 PREDICTED 宏 处 理 无 参 指 令 ， 
POP_TOP 正 是 一 条 无 参 指令 - PREDICTED 完成 的 工作 其 实 和 PREDICTED_WITH_ARG 并 无 二 
致 ， 它 的 终极 目的 也 是 调整 next_instr 的 值 ， 使 其 指向 下 一 条 待 执 行 的 字 节 码 指 令 。 

值得 注意 的 是 ， 在 执行 JUMP_IF_FALSE 时 ,无论 coMPARE_OP 的 结果 是 py_False 还 
是 py_True， 都 将 转 到 fast_ next_opcode, 执行 下 一 条 字 节 码 指 令 ， 而 不 会 接着 执行 
COMPARE_OP 指令 代码 中 PREDICT(JUMP_1F_FALSE) 其 后 的 EREDICT (JUMP_IF_ TRUE) 。 

在 整个 指令 跳跃 的 过 程 中 ， 出 现 了 两 次 跳 肤 ， 可 能 会 令 人 比较 迷 三 ， 实 际 上 这 两 次 跳 
跃 是 在 不 同 的 层面 上 的 跳跃 。 第 一 次 是 通过 PREDICT (JUMP_IF_FAESE) 中 的 goto 语句 进 
行 跳跃 ， 这 次 跳跃 影响 的 是 Python 虚拟 机 自身 ， 即 实现 Python 的 C 代码 。 而 在 
JUMP_IF_FALSE 的 指令 代码 中 通过 JuMPBY 完成 的 跳跃 是 在 Python 应 用 程序 层面 的 跳跃， 
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影响 的 Python 应 用 程序 ， 是 .py 源 文 件 中 的 Python 代码 。 


现在 我 们 通过 对 PREDICT 宏 的 分 析 可 以 知道 ， 只 有 如 下 的 字 节 码 指令 序列 才能 使 
COMPARE_OP Se PREDICT (JUMP_TF_TRUE) 得 到 执行 : 





很 遗憾 , 在 证 control.py 中 的 所 有 if 控制 语句 都 没有 编译 出 这 样 的 指令 结构 。 只 有 将 
诸如 if a > 10 这 样 的 判断 改 为 i£ not a > 10 时 ，Python 编译 器 才 会 为 i£ 控制 语 句 
编译 出 含有 JUMP_IF_TRUE 的 指令 序列 。 


最 后 还 有 一 点 需要 指出 的 是 ， 在 print 的 执行 中 ， 同 样 会 有 指令 跳跃 的 动作 出 现 。 
为 从 程序 的 流程 上 看 ,在 执行 完了 print 之 后 , 程序 就 会 跳 过 以 下 的 几 个 判断 直接 执行 这 
个 iE 控制 结构 之 后 的 下 一 条 字 节 码 ， 所 以 在 执行 完 print 之 后 ，Python 虚拟 机 的 执行 流 
程 会 横越 千里 ， 直 接 跳 转 到 if 控制 结构 的 末尾 后 的 第 一 条 字 节 码 指令 ， 这 个 惊险 的 飞跃 


由 gyUMP_FORWORD 指令 完成 。 





跳跃 的 距离 是 当前 字 节 码 与 if 控制 结构 之 后 的 第 一 条 宇 节 码 指令 〈 在 让 control.py 
中 是 倒数 第 二 条 指令 “99 LoaD_coNsT 8”) 之 间 的 距离 ， 包 括 所 有 字 节 码 指令 和 其 对 应 
的 指令 参数 。 所 以 我 们 看 到 ， 在 不 同 的 print 语句 编译 后 的 指令 序列 中 ，JUMP_FORWARD 
的 指令 参数 是 不 同 的 。 但 是 它们 跳跃 的 目标 却 都 是 一 致 的 ， 都 是 “99 LORD_CONST 8”。 


从 这 里 也 可 以 看 到 ， 在 JuME_goRWaRD 后 面 的 那 条 POP_TOP 对 于 print 语句 没有 任 
何 意 义 ， 它 实际 上 就 是 为 了 JUMP_IF_FALSE 指令 而 生 的 。 


10.2 Python 虚拟 机 中 的 for 循环 控制 流 


在 iE 控制 结构 中 ， 只 存在 着 分 支 结构 ， 这 意味 着 在 if 控制 结构 中 ， 只 存在 字 节 码 指 
令 的 前 向 跳跃 。 昌 然 程序 有 可 能 左右 摇摆 ， 但 是 程序 的 流程 始终 是 向 前 奔流 而 去 。 在 本 节 
中 ， 我 们 将 研究 另 一 种 控制 结构 : for 循环 控制 结构 。 在 循环 控制 结构 中 ， 我 们 将 看 见 一 
种 新 的 指令 跳跃 方式 ， 即 指令 的 回 退 。 在 上 一 节 中 ， 我 们 看 到 了 指令 跳跃 时 ， 道 常 跳跃 的 
距离 都 是 当前 指令 与 目标 指令 之 间 的 距离 。 如 果 按 照 这 种 多 辑 ， 那 么 在 回 退 时 ， 这 个 跳跃 
的 距离 一 定 就 是 负数 了 ， 是 否 真是 如 此 呢 ? 别 急 ， 马 上 就 会 见 分 晓 了 。 在 进入 对 for 循环 
控制 结构 的 剖析 之 前 ， 我 们 先 来 看 一 看 这 一 节 剖 析 的 对 象 。 
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10.2.1 ”研究 对 象 一 一 for_control.py 


在 这 一 节 ， 我 们 通过 对 for_control.py 的 剖析 来 研究 Python 中 for 循环 控制 结构 的 实 
现 。 下 面 列 出 了 包含 了 字 节 码 指 令 序 列 的 for_control.py: 






号 表 CO_narmesS: 


<iNt value="1" /> 
<Int vale="2" /> 
本 »” 


> | | 
<intemStr Index="0" fength=!3" valua='s" /> 
IntemStr ndexw="l" length=" 1" value="' /> 

/narnes 


图 10-3 for_control.pyc 中 的 常量 表 和 符号 表 


10.2.2 ”循环 控制 结构 的 初始 化 


对 于 for_control.py 中 的 第 一 条 Python 语句 ,我 们 已 经 很 熟悉 了 ,不 用 再 去 考虑 .Python 

虚拟 机 中 对 Eor 循环 控制 流 的 实现 的 关键 从 第 二 条 Python 语句 开始 。 第 一 条 字 节 码 指令 

“12 spTUP_L00P 19” 是 一 条 关键 的 指令 ， 正 是 它 拉 开 了 Python 虚拟 机 中 for 循环 控制 
结构 的 大 幕 : 


KR 
wm 
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10.2.2.1 PyTryBlock 


在 SETUP_LOoP 的 实现 代码 中 ,仅仅 是 简单 地 调用 了 一 个 byFrame_blocksettp 函数 ， 
看 来 ， 这 个 函数 的 作用 至 关 重 要 ， 













在 这 里 ， 我 们 第 一 次 开始 使 用 pyFrameobject 中 的 £_blockstack: 








其 中 的 co_MAxBLOCKS 在 Python 2.5 中 被 定义 为 20，f_iblock 在 调用 pyFrame_New 
时 被 初始 化 为 0。 而 那个 至 关 重 要 的 FyTryBlock 定义 如 下 : 





显然 ，PyFrameObject 对 象 中 的 二 blockstack 是 一 个 pyTryBlock 结构 的 数组 ， 而 
SETUP_LOOR 指令 所 做 的 就 是 从 这 个 数组 中 获得 了 一 块 pymzyBlock 结构 ， 并 在 这 个 结构 
中 存放 了 一 些 Python 虚拟 机 当前 的 状态 信息 。 比 如 当前 执行 的 字 节 码 指 令 ， 当 前 运行 时 
栈 的 深度 等 等 。 那么 这 个 结构 在 for 循环 控制 结构 中 起 着 什么 样 的 作用 呢 ? 到 目前 为 止 
一 无 所 知 。 不 过 ， 随 着 对 for_control.py 剖析 的 深入 ， 我 们 马上 就 能 看 到 PyTryBlock 结构 
的 作用 了 。 

我 们 注意 到 PyTryalock 结构 中 有 一 个 b_type 域 ， 这 意味 着 实际 上 存在 着 几 种 不 同 
用 途 的 pyTryBlock 对 象 。 从 PyFrame_BlockSetup 中 可 以 看 到 ， 这 个 b_type 实际 上 被 
设置 为 当前 Python 虚拟 机 正在 执行 的 字 节 码 指 令 , 以 字 节 码 指令 作为 区 分 eyTryBlock 的 
不 同 用 途 。 我 们 看 一 看 有 哪些 指令 会 调用 pyrrame_Blocksetup， 就 能 知道 pyTryBlock 
有 多 少 种 用 途 了 。 
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原来 除了 循环 控制 流 ， 这 个 小 小 的 pytryBlock 在 异常 机 制 中 也 占有 一 席 之 地 ， 这 里 
对 异常 机 制 我 们 暂且 按 下 不 表 ， 单 看 eyrryBlcck 在 循环 控制 流 中 的 作用 ， 


10.2.2.2 list 的 迭代 器 
在 sETUP_LooP 指令 从 PyFrameobject 的 f_blockstack 中 申请 了 一 块 ByTryBlock 
结构 的 空间 之 后 , Python 虚拟 机 通过 “15 LoaD_NAME 0” 指 令 ， 将 刚 创建 的 pybistObject 
， 对 象 压 入 运行 时 栈 。 然 后 再 通过 执行 “18 GET_ITER” 指 令 来 获得 pyListobject 对 象 的 
和 迭代 器 。 





在 csr_rrgR 的 指令 代码 中 ，Python 虚拟 机 首先 会 获得 位 于 运行 时 樟 的 栈 项 的 


pytistobject 对 象 ， 然 后 通过 pyobject_GetIter 获得 pyListobject 对 象 的 近代 器 : 








Python 沽 到 前 六 一 一 深 厦 训 鞭 动态 语言 代 心 蕉 天 
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显然 , Pyobject_GetIter 是 通过 调用 对 象 对 应 的 类 型 对 象 中 的 tp_iter 操作 来 获得 
与 对 象 关联 的 迁 代 器 的 。 在 Python 中 ， 和 迭代 器 的 概念 实际 上 与 Java，C# 或 C++ 中 STL 各 
容器 的 和 迭代 器 的 概念 是 一 致 的 ， 都 是 为 容器 中 元 素 的 所 历 操作 提供 一 层 接口 ， 将 对 容器 的 
中 历 操作 与 容器 的 具体 实现 分 离开 。 这 也 是 GoF 中 的 Tterator Pattern 思想 的 实现 。 在 C++ 
的 STL 中 ， 有 的 迭代 器 是 直接 利用 C 的 原生 指针 实现 的 ， 比 如 vector; 有 的 则 是 通过 一 
个 类 来 实现 的 ， 比 如 iist。 有 虽然 Python 中 的 PyListobject 对 象 在 内 存 布局 上 与 vector 
相同 ， 但 其 对 应 的 迭代 器 却 和 STL 中 的 1ist 是 一 致 的 ， 都 通过 烙 外 的 对 象 来 实现 。 实 际 
上 , 在 Python 中 ,不 光 是 pyListobject 对 象 ， 只 要 拥有 迭代 器 的 对 象 ， 这 些 迁 代 器 都 是 
一 个 实 实在 在 的 对 象 ， 很 显然 ， 它 们 也 都 是 一 个 Pyobject 对 象 。 


1 









既然 夫 代 器 是 一 个 pyobject 对 象 ， 那 么 很 显然 ， 它 也 一 定 拥有 类 型 对 象 。 友 代 问 
listiterobject 对 象 所 对 应 的 类 型 对 象 为 PyLisktTter_Type。 








我 们 回 到 pybistobject 来 ， 在 PyListobject 对 象 的 类 型 对 象 pytist_ype 中 ， 
tp_iter 域 被 设 署 为 1iat_iter。 这 个 1ist_iter 正 是 pyobject_GetTter: 中 所 获得 的 
那个 E， 也 正 是 创建 迭代 器 对 象 的 命 门 所 在 : 
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pyvListobject 对 象 的 迭代 器 对 象 只 是 对 pyListobject 对 象 做 了 一 个 简单 的 包装 ， 
在 迭代 器 中 ,维护 了 当前 访问 的 元 素 在 pyListobject 对 象 中 的 序号 : it_index。 通过 这 
个 序号 ，1istiterobject 对 象 就 可 以 实现 对 pyListobject 的 遍历 。 

Gpm_ITER 指令 在 获得 了 pyListobject 对 象 的 迭代 器 之 后 ， 通 过 sBT_TrOP 宏 强制 将 
这 个 闪 代 器 对 象 设 置 为 运行 时 栈 的 栈 顶 元 素 。 图 10-4 展现 了 这 个 过 程 : 






| cet irater 
EL | 
FE 3 
大 三 


图 10-4 ”创建 迭代 铭 时 运行 时 栈 的 变化 
在 指令 “18 GEm_ITER" 完 成 之 后 ，Python 虚拟 机 开始 了 FoR_ITER 指令 的 预测 动作 ， 
如 你 所 知 ， 这 样 的 预测 动作 是 为 了 提高 执行 的 效率 。 


10.2.3 ”和 迭代 控制 


想象 一 下 ， 对 于 源 代码 一 级 的 循环 控制 结构 ， 在 Python 虚拟 机 一 级 ,一定 也 对 应 着 
一 个 相应 的 循环 控制 结构 。 因 为 无 论 进行 怎样 的 变换 ， 都 不 可 能 在 虚拟 机 一 级 利用 顺序 结 
构 来 实现 源码 一 级 的 循环 结构 ， 这 可 以 看 做 程序 的 拓扑 不 变性 。 到 现在 为 止 ， 我 们 看 到 的 
都 是 顺序 结构 ， 很 显然 ， 创 建 迭代 器 的 指令 应 该 也 属于 顺序 结构 中 的 指令 ， 因 为 如 果 每 一 
次 循环 都 要 创建 和 代 器 ， 那 效率 跟 鸟 旬 没 什么 两 样 了 。 尽 管 “乌龟 ” 在 “ 色 免 赛跑 ”中 大 
获 全 胜 ， 但 如 果 去 跟 Ruby、Perl 或 者 PHP 赛跑 ， 铠 怕 就 没 那 么 幸运 了 。 

而 另 一 方面 ， 从 概念 上 来 说 ， 友 代 加 正 是 一 个 对 容器 实现 遍 访 的 工具 。 允 历 ， 就 是 特 
环 的 另 一 种 说 法 。 我 们 现在 可 以 猜想 ， 在 Gem_ITeR 指令 之 后 ，Python 虚拟 机 应 该 进入 一 
个 与 源码 对 应 的 循环 控制 结构 了 。 没 错 ， 正 是 从 “19 FoR_ITER 11” 指 令 开始 ， 我 们 开 
始 进入 Python 虚拟 机 一 级 的 for 循环 : 


人- 三， 
L 
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FOR_ITER 的 指令 代码 会 首先 从 运行 时 栈 中 获得 PyListobject 对 象 的 迭代 器 ,然后 调 
用 迭代 器 的 tp_iternext 开始 进行 迭代 。 和 迭代 器 的 tp_iternext 操作 总 是 返回 与 迭代 器 关 
联 的 容器 对 象 中 的 下 一 个 元 素 , 如 果 当 前 已 经 抵达 了 容器 对 象 的 结束 位 置 , 那么 tp_iternext 
将 返回 NULL， 这 个 结果 预示 着 遍历 结束 。 

FOR_ITER 的 指令 代码 会 检查 tp_iternext 的 返回 结果 ， 如 果 得 到 的 是 一 个 有 效 的 元 

素 (x != NULE)， 那 么 将 获得 的 这 个 元 素 压 入 到 运行 时 栈 中 ， 并 开始 进行 一 系列 的 字 节 

”和 码 预测 动作 。 在 我 们 的 例子 中 , 这 两 个 预测 动作 显然 都 会 失败 ,所 以 在 continue 处 , Python 
虚拟 机 会 重新 进入 对 下 一 条 字 节 码 指令 一 “22 sTORE_NAME 1” 一 一 的 执行 过 程 。 

对 于 PyListobject 对 象 的 迭代 器 ， 其 获取 下 一 个 元 素 的 操作 如 下 ; 














在 获取 了 当前 it_index 对 应 的 pyListobject 对 象 中 的 元 素 后 , 将 it_index 递增 ， 
为 下 一 个 迭代 动作 做 好 准备 。 在 我 们 的 例子 中 ， 这 里 会 返回 一 个 pyIntobject 对 象 1。 
图 10-5 展示 了 直到 “22 sToRE_NAME 1” 之 前 ， 运 行 时 栈 及 local 名 字 室 间 的 变化 情况 。 
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<< lst iterator >> 


[<< list iterator >> | 








mm 二 一 » 


PUSH(x ) 

图 10-5 ”迭代 过 程 中 虚拟 机 的 状态 变化 
这 之 后 Python 虚拟 机 将 沿 着 字 节 码 的 顺序 一 条 一 条 执行 下 去 ， 从 而 完成 输出 的 动作 。 
然后 ， 按 照 for_control.py 中 Python 源 代码 所 定义 的 行为 ， 应 该 获得 pyListobject 对 象 
中 的 下 一 个 元 素 ， 并 继续 进行 输出 操作 。 直 观 上 ， 这 时 需要 一 个 向 后 回 退 的 指令 ， 这 个 指 


令 正 是 “30 JUMP ABSOLUTE 19”: 






1 Ws , 和 4 人 i .6 hb 2 
pd i 
i {py oy l " # . Ya 有 | [ry 7 . i 


前 面 我 们 提 到 ， 如 果 for 循环 中 的 指令 跳跃 动作 依然 采用 JUMPBY 的 逻辑 ， 那 么 参数 
必须 是 一 个 负数 ， 因 为 这 里 的 指令 跳跃 式 一 个 向 后 回 退 的 过 程 。 但 是 Python 采用 了 另外 
一 种 做 法 ,不 再 使 用 相对 距离 跳跃 ， 而 是 使 用 了 基于 字 节 码 指令 序列 开始 位 置 的 绝对 距离 
跳 跃 。 从 名 字 就 可 以 看 出 ， 完 成 这 个 绝对 跳跃 动作 的 指令 正 是 JUMP_aBsoLUTE 指令 ， 
JUMP_ABSOLUTE 指令 的 行为 是 强制 设 定 next_instr 的 值 ， 将 next_instr 设 定 到 距离 
f->f_code->co_code 开始 地 址 的 某 一 特定 偏 移 的 位 置 ,这 个 偏 移 的 量 由 JUMP_ABSOLUTE 
的 指令 参数 决定 ， 所 以 ， 这 条 参数 就 成 了 for 循环 中 指令 回 退 动作 最 关键 的 一 点 。 在 
for_control.py 中 ， 参 数 的 值 是 19， 那 么 这 个 19 代表 着 什么 呢 ? 


我 们 从 字 节 码 指 令 序 列 的 开始 处 (f->f_code->co_code)， 向 前 前 进 19 个 字 节 ， 其 
中 包括 字 节 码 和 参数 ，19 个 字 节 之 后 ， 到 达 了 “19 FOR_ITER 11” 也 就 是 说 ， 在 Python 
虚拟 机 执行 完 “JUMP_ABSOUUTB 19” 之 后 ，next_instr 将 指向 “19 FOR_ITER 11” 这 
条 指令 ， 那 Python 虚拟 机 的 下 一 步 动作 就 是 执行 FoR_ITER 指令 ， 即 通过 PyListobject 
对 象 的 迭代 器 获得 pyListobject 对 象 中 的 下 一 个 元 素 ， 然 后 依次 向 前 ， 继 而 执行 输出 操 
作 。 

可 见 ， 在 JUMP_ABSOLUTE 指令 处 ，Python 虚拟 机 实现 了 字 节 码 的 向 后 回 退 动作 。 而 
Python 虚拟 机 也 在 FOR_ITER 指令 和 JUMP_AB50LUTE 指令 之 间 成 功 地 构造 出 了 一 个 循环 
结构 ， 正 是 这 个 循环 结构 对 应 着 for_control.py 中 的 那个 for 循环 结构 。 


细心 的 读者 可 能 已 经 注意 到 了 一 个 奇怪 的 现象 ， 在 “19 FOR_ITER 11” 这 条 指令 中 ， 
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很 明显 ，FOR_ITER 是 一 个 带 参数 的 指令 ， 但 是 到 目前 为 止 ， 我 们 都 没有 看 到 这 个 参数 有 
什么 用 。 列 位 看 官 ， 别 急 ， 关 于 这 个 参数 的 作用 ， 马 上 就 会 水 落石 出 了 。 


10.2.4 终止 迭代 


俗话 说 “天 下 无 不 散 的 宴席 ”在 control.py 中 ，Eor 循环 控制 结构 最 终 也 是 要 结束 的 ， 
这 个 循环 结束 的 行为 同样 是 要 落 在 soR_ITER 的 身上 。 在 FOR_ITER 指令 的 执行 过 程 中 ， 
如 果 通 过 PyListobject 对 象 的 迭代 器 获得 的 下 一 个 元 素 不 是 有 效 的 元 素 (NuLL)， 这 就 
意味 着 迭代 结束 了 。 这 个 结果 将 直接 导致 Python 虚拟 机 会 将 迭代 器 对 象 从 运行 时 栈 中 弹 
有 ki JUMPBY 的 动作 ， 内 的 中 区 





向 新 呆 尖 的 隐 光 尖 直 二 FOR_ITER 的 参数 ， 中 for_control.py 中 是 11。 我 们 从 FOR_ITER 
后 的 stoRE_NAME 向 前 前 进 11 个 字 节 ， 正 好 到 达 poP_BLOCK: 





有 意思 的 是 , POP_BLOCK 由 全 学 点 不 同 。 前 面 我 们 看 到 , 在 ,sgmUE_LOoP 

，Python 虚拟 机 从 f->f_blockstack 中 申请 了 一 个 pyrryBlock 结构 ， 并 将 执行 
SETUP_LOOB 时 的 一 些 关 于 厅 拟 机 的 状态 信息 保存 到 了 所 获得 的 pymryBlock 结构 中 。 在 
执行 poP_BEocK 指令 时 ， 实 际 上 是 将 这 个 pyrzyBlockK 结构 归还 给 了 £->f_blockstack。 
同时 ，Python 虚拟 机 抽取 在 SBTUP_LOOP 指令 处 保存 在 PpyTryBlock 中 的 信息 ， 并 根据 其 
中 存储 的 sBTOP_LOOP 指令 处 运行 时 栈 的 深度 信息 将 运行 时 栈 恢复 到 samup_Loop 之 前 的 
状态 ， 从 而 完成 了 整个 for 循环 结构 。 在 这 之 后 ， 就 开始 执行 for controlpy 中 for 循环 
之 后 的 那个 隐藏 的 返回 动作 了 。 


我 们 注意 到 ， 在 执行 SBTYUP_LOOP 指令 时 ，Python 虚拟 机 保存 了 许多 信息 ， 而 在 热 行 
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pop_BLOCK 指令 时 ， 却 只 使 用 了 栈 深 度 信息 来 恢复 运行 时 栈 。 为 什么 会 存在 这 种 不 对 称 
呢 ? 这 是 因为 ，pymryBlock 并 不 是 专门 为 for 循环 准备 的 ，Python 中 还 有 一 些 机 制 会 使 
用 到 这 个 结构 , 为 了 避免 代码 过 于 复杂 , Python 不 管 三 七 二 十 一 ,在 PyFrame_BlockSetup 
中 会 一 古 脑 将 所 有 机 制 可 能 用 到 的 参数 全 都 存放 到 PyTryBliock 结构 中 ， 各 个 机 制 需要 什 
么 参数 ， 取 用 需要 的 参数 即 可 ， 对 于 其 他 参数 ， 可 以 不 用 理会 。 


最 后 ， 我 们 修改 了 Python 的 源 代码 ， 来 实时 地 观察 一 下 for 循环 的 整个 执行 流程 ， 
结果 如 图 10-6 所 示 。 由 于 IDLE 自身 使 用 了 多 线程 ， 而 其 他 线程 处 于 活动 状态 时 同样 会 执 
行 for 循环 语句 ， 从 而 导致 我 们 无 法 观察 到 正常 的 结果 ， 所 以 这 里 我 们 是 在 命令 行 模 式 下 
进行 观察 的 。 在 图 10-6 创建 的 1ist 对 象 中 ， 第 一 个 元 素 “654321” 是 我 们 修改 的 代码 中 
用 来 判断 是 否 该 输出 信息 的 准则 。 
lst = [654321, 3, 2, 1 


p>> for 1 in lst: 
pass 










GET ITER] : Get iterator, , 。 
[FOR_ITER] : Get next item -> 65d4321.. 。 


[FOR_ITER] : Get next item -> NULL... 


图 10-6 监视 Python 虚拟 机 执行 for 循环 的 过 程 


10.3 “Python 虚拟 机 中 的 while 循环 控制 结构 


在 大 多 数 现代 程序 设计 语言 中 , 一 般 都 提供 了 四 种 最 基本 的 控制 结构 : if 条 件 控制 结 
构 、for 循环 结构 、while 循环 结构 和 swich 分 支 选择 控制 结构 。 虽 然 Python 开发 社区 也 
曾 有 过 关于 在 Python 中 实现 swich 机 制 的 讨论 ， 但 是 到 目前 最 新 的 Python 发 行 版 本 ， 都 
不 存在 switch 控制 结构 。 所 以 ， 我 们 只 剩 下 最 后 一 种 基本 的 控制 结构 了 ， 即 while 循环 
控制 结构 。 


10.3.1 ”研究 对 象 一 一 while_control.py 


前 面 我 们 已 经 完成 了 对 Python 中 if 条 件 控制 结构 和 for 循环 结构 的 考察 ,那么 现在 
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对 于 Python 中 的 while 循环 控制 结构 ， 其 实 已 经 很 好 理解 了 。 在 这 一 节 ， 我 们 通过 对 
while_control.py 来 考察 Python 中 的 while 循环 控制 结构 。 在 while_control:py 中 ， 我 们 不 
仅 要 考虑 循环 本 身 的 指令 跳跃 动作 ， 而 且 还 要 考虑 另外 两 个 与 循环 相关 的 指令 跳跃 语义 ， 
continue 和 break。 | 

下 面 是 经 编译 生成 了 字 节 码 的 while_control.py: 
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编译 后 产生 的 pyCodeObiect 对 每 中 的 常量 表 co_consts 和 符号 表 CO_names 如 图 
10-7 所 示 : 


- <oonsts> 
<int value="0" /> 
<int value="10" /> 
<iNt value="1" /> 
<iNt value="5'" /> 


<inmtvalue= 20 /> 
<NoneObject /> 
</consts> 
- < 站 BieS> 
<internStr index="O" lenath="1" value="i" /> 
</names> 


10-7 ”while_control.pyc 中 的 常量 表 和 和 符号 表 


字 节 码 指令 序列 的 结构 基本 都 是 我 们 已 经 熟悉 的 了 ， 在 “6 sgT_Lo0P 71” 处 ， 虚 拟 
机 从 当前 活动 的 PyFrameObject 对 象 中 申请 了 一 块 PyTryBlock 的 空间 ， 并 填 入 一 些 当前 
虚拟 机 的 状态 ， 然 后 正式 开始 进入 while 循环 。 所 以 这 里 我 们 只 观察 while 循环 中 运行 
时 栈 和 local 名 字 空 间 在 运行 时 的 变化 情况 。 





10.3.2 ”循环 终止 


当 Python 虚拟 机 执行 到 “15 coMEARE_OP 0” 指 令 时 ， 运 行 时 栈 及 局 部 变量 表 的 情 
况 如 图 10-8 所 示 : 





图 10-8 执行 “15COMPARE_OP 0” 指 令 时 虚拟 机 的 状态 


接着 “coMPARE_OP 0” 指 令 将 执行 “小 于 ”比较 操作 ， 并 将 比较 的 结果 存放 到 运行 
时 栈 中 。 这 里 ， 我 们 先 来 个 思维 的 跃迁 ， 直 接 考虑 循环 结束 时 的 情况 。 当 某 个 时 刻 :i 的 值 
开始 大 于 或 等 于 10 时 ，“15 COMPARE_OP 0” 指令 运行 后 的 运行 时 栈 和 lecal 名 字 空 间 情 
况 如 图 10-9 所 示 : 





图 10-9 循环 结束 时 虚拟 机 的 状态 
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虚拟 机 在 执行 紧 接 着 的 “18 JuMp_IF_FALSE 57” 时 ， 会 发 生 指 令 跳跃 的 动作 ， 跳 跃 
的 距离 是 57， 从 该 指令 行 的 第 四 列 可 以 看 到 dis 工具 解析 的 结果 ， 这 丫 距离 正好 到 了 倒数 
第 4 条 字 节 码 指令 “78 POP_TOP” 处 ， 显 然 这 条 指令 将 py_False 弹出 运行 时 栈 ， 随 后 的 
虚拟 机 通过 执行 peoP_BLOGK 指令 销毁 pyTryBlock 对 象 。 


10.3.3 ”循环 的 正常 运转 


男 一 方面 ， 如 果 “15 comMPARE_OP 0” 指令 处 的 判断 结果 为 ey_mrue， 那 么 虚拟 机 将 
进入 while 循环 。 这 里 我 们 不 考虑 continue 和 brealk 的 情况 《实际 上 ，break 永远 也 不 
会 发 生 ), 只 考虑 循环 正常 运转 时 的 情况 。 在 循环 正常 运转 时 , i 的 值 小 于 10， 且 不 等 于 5， 
那么 Python eR 10-10 人 


一 人 
一 | 一 一 ， 
一 二 一 
J LOAD CONST3 INPLAGE AVD STORE NAMEo 
(+=1) 


LOAD_ NAME 0 
图 10-10 ”循环 运转 过 程 中 Python 虚拟 机 的 状态 转换 

将 i 的 值 递增 之 后 ，Python 虚拟 机 通过 两 个 BRINT_* 指 令 将 工 值 输出 到 标准 输出 ， 然 
后 通过 执行 指令 “75 JUMP_aBSOLUTB 9” 进 行 指令 的 回 退 ， 回 退 的 位 署 是 距离 字 节 码 开 
始 处 9 个 字 节 ， 正 好 是 “while i < 10:” 下 面 的 “9 Lonp_NaME 0” 指 今 。 Python 虚拟 
机 又 开始 了 新 一 轮 的 循环 ， 继 续 比较 i 和 10 的 大 小 ， 如 此 反复 ， 在 每 一 次 TRUE 分 支 中 ， 
都 会 使 i 的 值 递增 1, 直到 i 的 值 等 于 10。 这 时 程序 的 执行 流程 就 会 转 入 FALSE 分 支 退出 

循环 ， 然 后 Python 的 虚拟 机 才 会 执行 while 循环 控制 结构 之 后 的 字 节 码 指令 序列 。 





10.3.4 循环 流程 改变 指令 之 continue 


在 while_control.py 中 ,我 们 设置 了 一 个 执行 continue 动作 的 条 件 , 即 i =- 5。 当 Python 
虚拟 机 执行 continue 动作 时 ， 按 照 在 其 他 编程 语言 ， 比 如 C、Java 中 的 经 验 ， 这 时 程序 
的 执行 流程 应 该 跳 转 到 循环 开始 的 地 方 , 而 不 接着 执行 循环 中 位 于 continue 之 后 的 语句 。 


在 指令 序列 中 ， 我 们 可 以 看 到 ， 当 i == 5 时， 也 就 意味 着 “41 juMp_ IF FALSE 7” 
指令 中 的 判断 操作 的 结果 为 pey_True， 那么 这 里 的 指令 跳 风 动作 将 不 会 发 生 ， 所 以 虚拟 机 
将 执行 接 下 来 的 “44 poP_mop” 和 “45 JsUMp_ABSOEUTE 9” 指 令 。 在 执行 JUMP_ABSOLUTE 
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指令 时 ， 虚 拟 机 的 流程 就 跳 转 到 了 “9 Lonp_NaME 0” 指 令 处 ， 这 完全 符合 其 他 语言 中 
continue 的 语义 。 


10.3.5 ”循环 流程 改变 指令 之 break 


虽然 我 们 在 while_control.py 中 也 设置 了 男 一 条 能 够 改变 循环 流程 的 语句 一 一 break 诸 
句 。 但 是 很 显然 ， 这 条 语句 永远 也 不 会 执行 。 因 为 这 条 语句 执 行 的 前 提 条 件 是 主 == 20， 
但 是 当 i == 40 时 ，while 循环 就 已 经 结束 了。 

尽管 break 语 名 永远 不 能 执行 ， 但 我 们 从 理论 上 看 一 看 它 执行 时 的 动作 也 是 可 以 的 。 
按照 其 他 编程 诺言 中 的 break 语义， 执行 这 条 语句 将 跳 出 最 近 的 一 层 循环 ， 

当 虚 拟 机 执行 “651 JoMP_IF_FALSE 5” 指 令 时 ， 如 果 其 中 的 判断 操作 的 结果 为 Py_ 
True， 就 意味 着 i == 20 这 个 条 件 满足 了 ， 程序 流程 就 进入 对 break 的 执行 。Python 虚 
拟 机 首先 会 执行 “64 poP_TOP” 指令 将 位 于 运行 时 栈 栈 顶 的 py_mrue 弹出 ,然后 执行 “65 
BREAK_LOOP” 指 令 结 束 循环 。 





Python 大 槐 标 交 茂 们 过 用 扣 到 的 全 到 杖 二 why 设置 为 wHY_BREAK， 然 后 进入 fast_ 
block_enad 标志 符 对 应 的 代码 处 。 这 处 代码 是 一 段 比 较 复杂 的 代码 ， 其 中 还 有 关于 异常 机 
制 的 代码 ， 这 里 我 们 只 截取 与 break 相关 的 代码 ; 
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Python 虚拟 机 首先 获得 之 前 通过 sawoP_Loos 指令 申请 得 到 的 ,与 当前 while 循环 对 
应 的 perTryBlock 结构 ， 然 后 根据 其 中 存储 的 运行 时 栈 信息 将 运行 时 栈 恢复 到 while 循环 
之 后 的 状态 。 最 后 Python 虚拟 机 将 why 设置 为 WiY_Nor， 表 明 退 出 状态 没有 任何 错误 ， 
再 通过 JuMPpTO 宏 ， 将 虚拟 机 种 下 一 条 指令 的 指示 器 next_instr 设置 为 距离 code 开始 位 
过 b->b_handlier 个 字 节 的 指令 。 


这 个 b_handler 是 在 执行 sgrue_LooP 指令 时 设置 的 , 参考 SETUP_LOOEP 的 指令 代码 
和 pyFrame_BlockSetup 的 代码 可 以 看 到 , 这 个 值 会 被 设置 为 TINSTR_OFFSET1) + oparg。 
注意 这 里 的 oparg 是 指令 “6 seETyp_LooP 71” 的 指令 参数 ， 即 71。INSTR_OFFSET() 宏 
对 应 的 代码 为 ((int) (next_instr - first_instr))， 因 为 在 执行 SETUP_LOOP 指令 时 ， 
next_instr 已 经 指向 了 下 一 条 待 执行 的 字 节 码 指令 ， 即 “9 LOAD_NAME 0”， 很 显然 ， 这 
里 的 b_hanaler 的 值 为 : INSTR_OFFSET()+oparg =9+ 71 = 80。 这 也 就 意味 着 break 
滞 句 将 导致 Python 虚拟 机 的 执行 流程 跳 转 到 前 面 所 示 的 指令 序列 的 倒数 第 2 条 指令 “80 
LOAD_CONST 3” 处 。 确 实 ， 它 已 经 跳出 了 while 循环 所 对 应 的 指令 序列 。 

值得 注意 的 是 ， 虽 然 这 里 使 用 了 why 这 个 用 于 栈 帧 (PyFrameo0bject) 结束 时 的 结束 
状态 ， 但 是 实际 上 并 没有 结束 当前 活动 的 栈 帧 ， 而 仅仅 是 利用 其 实现 了 preak 的 语义 。 可 
以 看 到 ， 最 后 why 又 被 设置 为 了 正常 状态 waY_NOT， 而 虚拟 机 仍然 在 当前 栈 帧 中 运行 。 

到 了 这 里 ， 我 们 已 经 考察 完了 Python 中 四 种 基本 的 程序 结构 :顺序 结构 、iE 条 件 分 
支 控制 结构 、for 循环 控制 结构 和 while 循环 控制 结构 。 实 现 了 这 四 种 控制 流 结构 ， 一 个 
最 “ 轻 量 级 ”的 脚本 语言 就 可 以 诞生 了 。 但 是 在 Python 中 ， 除 了 这 些 基 本 的 控制 流 ， 还 
有 一 种 高 级 的 控制 流 结构 ， 这 也 是 我 们 将 在 下 面 详细 考察 的 内 容 一 一 异常 控制 结构 。 
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程序 在 运行 的 过 程 中 ， 可 能 经 常 遇 到 意 想 不 到 的 情况 ， 比 如 说 除数 为 0、 想 要 打开 的 
文件 不 存在 、 正 在 使 用 的 socket 非 正常 关闭 等 。 一 个 健壮 的 程序 必须 处 理 这 些 异 常 的 情况 。 
在 现代 编程 语言 中 ， 都 引入 了 “异常 ”这 样 的 概念 ， 来 对 程序 运行 中 突 发 的 非 正常 情况 进 
行 抽象 。 同 时 ， 在 这 些 编程 语言 中 ， 还 提供 了 相应 的 语法 结构 和 语义 元 素 ， 使 得 程序 员 能 
够 通过 这 些 语法 结构 和 语义 元 素来 方便 地 描述 异常 发 生 时 程序 的 行为 。 


10.4.1 ”Python 中 的 异常 机 制 


10.4.1.1 ”Python 虚拟 机 自身 抛 出 异常 
Python 内 部 有 一 套 内 建 的 异常 捕捉 机 制 ,即使 在 Python 脚本 文件 中 没有 出 现 诸如 try、 


Python 泌 码 剖 匠 一 一 深 殿 误 莫 动态 语言 檬 人 心 扩大 


198 号 第 10 章 Python 志 拟 机 中 的 控制 流 


except、#inallyY 等 用 于 进行 异常 控制 的 语义 元 素 , Python 脚本 执行 中 所 抛 出 的 异常 还 是 
会 被 Python 虚拟 机 捕 提 到 。 我 们 首先 通过 一 个 最 简单 的 例子 来 考察 Python 中 的 异常 机 制 
是 如 何 实现 的 : 










网 





上 \ NL a 


由 于 除数 是 0， 所 以 这 行 Python 代码 一 定 会 抛 出 异常 ， 
ZeroDivideError。 我 们 看 一 下 图 10-11 所 示 的 执行 结果 : 


| 1 


在 Python 中 ， 这 个 异常 是 










raceback ‘(mast recent call lasat}.: 
File "<pyshell#9>", line 1, in <module> 





1/0 
veroDivisionprror; integer division or ncdulo by EEC 


图 10-11 Python 内 建 的 异常 捕捉 机 制 

在 这 一 节 ， 我 们 就 会 将 异常 的 来 龙 去 脉 搞 个 一 清二 楚 。 在 “1/0” 这 行 简单 的 Python 
表达 式 编译 得 到 的 三 条 字 节 码 指令 中 ， 前 两 条 我 们 已 经 非常 熟悉 了 ， 在 第 三 条 字 节 码 指 令 
中 ， 执 行 了 除法 操作 。 显 然 ， 异 常 也 正 是 在 执行 这 条 字 节 码 时 被 触发 的 ; 


并 作 ey 














从 运行 时 栈 中 获得 数据 之 后 ，w 是 pyInitobject 对 象 1，v 是 pytntobject 对 和 象 0， 
x 是 做 除法 操作 的 结果 。 我 们 注意 到 在 将 这 个 结果 压 入 到 栈 中 后 ， 会 对 x 的 有 效 性 进行 检 
察 。 如 果 x 是 一 个 有 效 的 Python 对 象 ， 那 么 Python 虚拟 机 将 执行 下 一 条 字 节 码 ; 如 果 x 
为 NULL, 即 不 是 一 个 有 效 的 Python 对 象 ,那么 将 通过 break 跳出 Python 虚拟 机 中 那个 对 
字 节 码 指令 进行 分 派 的 巨大 的 switceh 语句 。 注 意 ， 这 里 的 跳跃 最 终 将 使 得 程序 的 流程 跳 
出 与 Python 诬 拟 机 息息相关 的 用 于 指令 分 派 的 switch 选择 。 

我 们 可 以 猜想 , 当 PyNumber_pivide 执 行 时 , 抛 出 了 异常 ,而 它 的 返回 值 一 定 是 NULL， 
所 以 才能 导致 Python 虚拟 机 退出 当前 栈 帧 。 那 么 这 个 至 关 重 要 的 异常 在 哪里 抛 出 的 ， 它 
又 被 抛 到 了 什么 地 方 去 了 呢 ? 列 位 看 官 ， 且 随 我 深入 pyNumber_Divide。 

从 PyNumber_Dpivide， 会 经 过 一 系列 的 动作 ， 在 这 个 过 程 中 ， 不 同 的 参与 除法 操作 
的 对 象 最 终 将 走 上 不 同 的 路 径 ， 而 我 们 的 两 个 Byintobject 的 除法 路 径 最 终 会 达到 在 


Python 六 本 前 新 一 一 演 度 莱 动态 语言 柑 心 并 大 
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pyInt_'Type 中 定义 的 除法 操作 int_classic_div: 


412 人 区 了 z 
cm sl 
atic PyODNiectn 







现在 我 们 可 以 确定 ， 在 i_aivmod 中 ， 抛 出 了 异常 ， 并 且 返 回 了 一 个 不 是 Dt1VmoD_ox 
或 pIvMop_ovERFLOW 的 值 ， 这 样 int_classic_aiv 才能 返回 一 个 表示 除法 失败 的 NULL 
值 ， 将 Python 虚拟 机 扼杀 在 执行 的 路 上 。 我 们 就 来 看 看 这 个 异常 发 生 的 1_aivnod: 





调用 pygrr_setstring 抛 出 了 异常 ,并 返回 了 指示 异常 抛 出 的 指示 码 一 一 DIVMOD_ERROR。 

乍 一 看 , 这 个 pyExc_ZeroDivisionError 就 是 我 们 苦 苦 寻找 的 那个 异常。 我 们 说 过 ， 
Python 中 ， 一 切 东 西 都 是 对 象 异常 自然 也 不 能 例外 。 那么 在 Python 的 对 和 象 体系 中 ， 这 
个 pyBxec_zercDivisgionBrFor 到 底 是 属于 哪 一 部 分 的 呢 ? 


Python 党 码 剖 匠 一 一 次 厦 苯 鞭 动 态 语言 巷 人 心 拉 不 
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实际 上 ， 这 个 pygrtr_zeropivistionError 很 简单 ， 就 是 一 个 Pyobject*， 仅 仅 是 一 
个 指针 : 








在 pyerrors.h 中 ， 同 时 还 定义 了 许多 在 异常 机 制 中 使 用 的 Byobject*; 


| 1 | 
ee - 站 昌 - a 
) 


尽管 它们 都 是 再 简单 不 过 的 PyObject*， 但 是 在 Python 运行 环境 初始 化 时 ， 它 们 会 
指向 Python 创建 的 异常 类 型 对 象 ， 从 而 指明 发 生 了 什么 异常 。 


10.4.1.2 在 线程 状态 对 象 中 记录 异常 信息 


在 i_aqivmod 之 后 ,Python 的 执行 路 径 会 沿 着 PyBrr_setstring、PyErr_setobject， 
一 直到 达 Pysrr_Restore。 在 PyBrr_Restore 中 ，Python 将 这 个 异常 放 和 过 到 了 一 个 安全 
的 地 方 : 





Python 漂 到 出 用 一 一 深 管 厅 壳 动 次 三 每 大 心 花 开 
2 
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最 后 , 在 PyThreadstate 的 curexc_type 中 存放 下 了 pyExc_ZeroDivisionError, 
而 curexc_value 中 存放 下 了 在 i_aivmod 中 设 定 的 那个 跟随 pygxc_zZeropivisionError 
的 字符 串 *integer division or modulo by zero*。 


我 们 在 前 面 已 经 介绍 了 pyTthreadstate 对 象 ，Python 无 论 它 多 么 强悍 ， 总 会 在 一 个 


操作 系统 提供 的 线程 中 运行 。 真实 的 线程 及 其 状态 当然 是 由 操作 系统 来 维护 和 管理 的 ,但 

是 Python 虚拟 机 在 运行 中 总 需要 另外 一 些 与 线程 相关 的 状态 和 信息 ， 比如 是 否 发 生 了 异 
常 这 样 的 信息 。 这 些 信息 显然 没 法 由 操作 系统 提供 ， 而 pyThreadstate 对 象 正 是 Python 
为 线程 准备 的 在 Python 虚拟 机 一 级 保存 线程 状态 信息 的 对 银 。 在 这 里 ， 当 前 活动 线程 对 
应 的 PyThreadstate 对 象 可 以 通过 pyrhreadstace_GBm 获得 ， 在 得 到 了 线程 状态 对 象 之 
后 ， 就 将 异常 信息 存放 到 线程 状态 对 象 中 。 








在 Python 启动， 进行 初始 化 的 时 候 ， 会 调用 pymhzreaascate_New 创建 一 个 新 的 
pyThreadstate 对 象 ， 并 将 其 赋 给 _pyrhreadstate_current， 这 个 对 象 就 是 和 当前 的 活 
动 线程 关联 的 线程 状态 对 象 。 

在 Python 的 sys 标准 库 中 ,提供 了 一 个 接口 ， 使 我 们 能 够 在 异常 发 生 时 ， 访问 Python 
虚拟 机 存放 在 线程 状态 对 和 象 中 的 异常 信息 。 下 面 的 例子 展示 了 这 个 接 品 的 使 用 ， 





Python 注 码 济 六 一 一 深度 共和 英吉 车 膏 半天 心 其 天 
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10.4.1.3 ”展开 栈 帧 


我 们 看 到 异常 已 经 被 记录 在 了 线程 的 状态 对 象 中 了 。 那么 现在 可 以 回头 看 看 ， 在 跳出 
了 分 派 字 节 码 指令 的 switch 块 之 后 ,发 生 了 什么 动作 。 这 蛙 还 存在 一 个 问题 ， 导 致 跳出 
那个 巨大 的 switch 决 的 原因 可 能 是 执行 完了 字 节 码 之 后 正常 的 跳出 ， 也 可 能 是 发 生 异 常 
后 的 跳出 。 那 么 Python 走 拟 机 将 如 何 区 分 呢 ? 





在 跳出 了 switch 之 后 ， 首 先 会 通过 检查 x 的 值 ， 如 果 x 为 NjLL， 表示 有 异常 情况 发 
生 ， 那 么 Python 虚拟 机 将 why 设置 为 wny_ExcsPTION。 这 里 的 x 是 pyNumber_Divide 
的 结果 ， 我 们 刚才 看 到 ， 在 抛 出 了 异常 之 后 ， 这 个 x 就 成 了 NULL。 变 量 why 实际 上 维护 
的 是 Python 虚拟 机 中 执行 字 节 码 指令 的 那个 for 循环 内 的 状态 。 当 为 wHy_Nor 时 ， 表 示 
一 切 正常 ， 没 有 错误 发 生 ， 而 设 署 成 了 wHY_BXcBpmroN 之 后 ， 表示 在 执行 字 节 码 的 过 程 
中 ,有 异常 被 抛 出 了 。 注意， 到 了 这 里 ，Python 的 虚拟 机 才 开 始 获得 了 这 个 信息 ， 即 执行 
过 程 中 发 生 了 异常 。 


在 Python 虚拟 机 意识 到 有 异常 发 生 后 ， 它 就 要 开始 进入 异常 处 理 的 流程 ， 这 个 流程 
会 涉及 我 们 介绍 pyFrameObject 对 象 时 所 提 到 的 那个 PyFrameObject 对 象 链表 。 在 介绍 
PyFrameObiect 对 象 时 ， 我 们 提 到 ， PyRraneoObJject 对 象 是 Python 虚拟 机 中 对 栈 帧 的 模 
拟 ， 当 发 生 函数 调用 时 ，Python 虚拟 机 会 创建 一 个 与 被 调用 函数 对 应 的 PyFrameobject 
对 象 〈 栈 帧 )， 并 通过 该 对 象 中 的 5_back 连接 到 调用 者 对 应 的 PyErameobject 对 象 。 这 
样 就 形成 了 一 条 PyFrameObject 对 象 的 链表 。 


前 面 我 们 在 考察 异常 时 并 没有 涉及 函数 调用 , 现在 我 们 考虑 一 下 如 果 函 数 调用 时 发 生 


Python 源码 山 环 一 深 帮 区 壬 动 息 坦言 观 心 盐 义 
EE HS 


10.4 ”Python 虚拟 机 中 的 异常 控制 流量 203 













图 10-12 展示 了 当 Python 旭 拟 机 执行 到 函数 中 的 0 表达 式 时 ,所 形成 的 PyFrame- 
Object 对 象 链表 : 
i J 
运行 时 栈 





0 ga) AR 
图 10-12 虚拟 机 执行 函数 h 时 的 栈 帧 链表 
图 10-13 给 出 了 这 个 脚本 运行 时 产生 的 输出， 


Tracebhack {most racent call last): 
Fils *<pvyeshe!llsdf>*, Tine 1, in noduley 











i, line 2 inf 
Rs "apyshellifo6>", line 2, in 
本 nx<PYshells237 Jine S, in h 
re integer division or Wodulo tb 
图 10-13 ”异常 在 函数 调用 中 发 生 

可 以 看 到 ， 在 输出 的 信息 中 ， 出 现 了 函数 调用 的 信息 ; 比如 在 源 代码 的 娜 一 行 调用 了 
函数 ， 调 用 了 什么 函数 ， 这 些 信 息 是 如 何 得 来 的 呢 ? 同时 我 们 注意 到 ， 和 输出 的 信息 伍 然 星 
现 出 一 种 链 状 的 结构 ， 如 同 图 10-12 中 所 展示 的 栈 帧 链表 一 样 ， 这 两 者 之 间 难 道 有 什么 联 
系 ? 没 错 ， 在 Python 虚拟 机 处 理 异常 的 流程 中 ， 涉 及 了 一 个 traceback 对 象 ， 在 这 个 对 
象 中 记录 栈 帧 链表 的 信息 , Python 虚拟 机 利用 这 个 对 象 来 将 栈 帧 链表 中 每 一 个 栈 帧 的 当前 
状态 可 视 化 ， 这 个 可 视 化 的 结果 就 是 图 10-13 中 输出 的 信息 。 

回 到 我 们 的 例子 ， 当 异常 发 生 时 ， 当 前 活动 的 栈 帧 是 图 10-12 中 函数 对 应 的 栈 帧 。 
在 Python 虚拟 机 开始 处 理 异常 时 ， 它 首先 的 行为 就 是 创建 一 个 traceback 对 象 ， 用 于 记 
录 异 常 发 生 时 活动 栈 帧 的 状态 : 






Python 总 冯 剖 伯 一 一 深 民 束 策 动态 语言 枚 人 心 其 天 
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这 里 的 cstate 还 是 我 们 之 前 提 到 的 那个 与 当前 活动 线程 对 应 的 线程 对 象 ， 其 中 的 
c_tracefunc 是 用 户 自 定义 的 追踪 函数 ， 主 要 用 于 编写 Python 的 debugger。 通 常情 况 下 
这 个 值 都 是 NG， 所 以 我 们 不 考虑 它 。 这 里 我 们 的 重点 在 于 考察 Python 虚拟 机 究竟 创建 
了 一 个 怎样 的 traceback 对 象 。 











原来 traceback 对 象 是 保存 在 线程 状态 对 象 之 中 的 ， 我 们 来 看 看 这 个 tractback 对 
象 究竟 长 得 是 个 什么 样 : 






一 看 到 tb_next， 我 们 就 居然 大 悟 了 ， 原 来 traceback 对 象 也 跟 pyprameObject 对 
象 一 样 ， 是 一 个 链表 结构 。 我 们 进一步 猜测 ， 这 个 pyTracebackobject 对 象 的 链表 结构 
应 该 跟 pyFrameobject 对 象 的 链表 结构 是 同 构 的 ， 即 一 个 pyrrameobject 对 象 应 该 对 应 
一 个 peymracebackobject 对 象 。 我 们 来 看 看 这 个 链表 是 怎么 产生 的 ; 


Python 源码 剖 昕 一 深 居 可 匡 动 态 说 言 检 心 烘 六 
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前 面 我 们 看 到 ， 这 里 的 next 正 是 从 线程 状态 对 象 中 得 到 的 traceback 对 和 象 ， 在 
newtracebackobject 中 ， 两 个 traceback 对 象 被 链接 了 起 来 。 同 时 ， 在 新 创建 的 
traceback 对 象 中 ,还 利用 tb_frame 与 其 对 应 的 pyFrameobject 对 象 建立 了 联系 。 另外 ， 
还 存储 了 当前 最 后 执行 的 一 条 字 节 码 指令 及 其 在 源 代码 中 对 应 的 行 号 。 还 记得 Bycodeobject 
对 象 中 的 那个 co_inotab 由，Pycode_addr2Dine 正 是 利用 这 个 co_inotab 获得 了 
frame->f_lasti 所 指示 的 字 节 码 指令 在 源 代码 中 对 应 的 行 号 。 

Python 虚拟 机 意识 到 有 异常 抛 出 ， 并 创建 了 traceback 对 象 之 后 ， 它 会 在 当前 栈 帧 
中 寻找 except 语句 , 以 寻找 开发 人 员 指定 的 捕 提 异常 的 动作 , 如 果 没 有 找到 , 那么 Python 
虚拟 机 将 退出 当前 的 活动 栈 帧 ， 并 沿 着 栈 帧 链表 向 上 回 退 到 上 一 个 栈 帧 。 在 图 10-12 中 ， 
即 是 从 函数 对 应 的 pygrameobject 对 象 沿 着 E_back 回 退 到 函数 5 对 应 的 ByPrameobject 
对 象 。 这 个 回 退 的 动作 在 PyBval_EvalFramegx 的 最 后 完成 〈 见 代码 清单 10-3)。 
。 代码 清单 10-3 
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可 以 看 到 ， 如 果 开 发 人 员 没 有 提供 任何 捕捉 异常 的 动作 ， 那 么 程序 将 执行 到 代码 清单 
10-3 的 [1] 处 ， 这 里 也 是 Python 虚拟 机 的 主 for 循环 的 结尾 处 ， 由 于 异常 没有 被 捕捉 到 ， 
why 的 值 仍然 是 wHY_ExcEPTION， 那 么 将 会 通过 break 动作 跳出 Python 执行 字 池 码 的 那 
个 for 循环。 最后， 由 于 异常 没有 被 捕捉 到 ， PyEval_EvalFrxrame 的 返回 值 将 在 代码 清单 
10-3 的 [2] 处 被 设置 为 NULL。 同 时 ， 通 过 重新 设置 当前 线程 状态 对 象 中 活动 栈 帧 ， 完 成 栈 
帧 回 退 的 动作 ， 

PyBval_EvalFrameBx 到 这 里 就 结束 了 ， 但 是 一 个 重要 的 问题 随 之 而 生 ，pyEval_ 
pvalFramegx 返回 到 什么 地 方 去 了 ? 嗯 , 答案 肯定 会 让 你 迷惑 , 返回 到 PyEval_EvalFrameEx 
里 去 了 @， 


前 面 我 们 说 了 ， PyEval_EvalPrarmeEx 是 Python 虚拟 机 的 主要 实现 代码 ， 实际 上 ， 当 
Python 虚拟 机 运行 时 ， 这 个 函数 是 会 被 递归 调用 的 。 从 这 个 函数 的 函数 名 上 也 可 以 看 出 一 
些 端倪 ， 这 是 一 个 与 某 个 PypPrameobjeet 对 象 的 执行 有 关 的 函数 ， 既 然 pytrameObject 
对 象 有 一 个 链表 ， 那么 PyEval EvalFramebx 也 就 只 能 通过 递归 与 链表 结 徇 对 应 了 a 


举 个 例子 ， 当 Python 虚拟 机 执行 函数 g 时 , 它 是 在 pyBvai_svalpramegx 中 执行 与 g 
对 应 的 peyFrameobject 对 象 中 的 字 节 码 指 令 序列 。 当 在 g 中 调用 h 时 ，Python 虚拟 机 为 
h 创建 新 的 PyFrameobject 对 象 ， 同 时 递归 调用 pyBval_EvalFrameBx， 不 过 这 回 是 在 其 
中 执行 与 h 对 应 的 ByFrameobject 对 象 中 的 字 节 码 指令 序列 了 。 所 以 当 在 h 中 发 生 异 常 ， 
导致 pypval_EvalFrameEx 结束 时 , 自然 要 返回 到 与 函数 g 对 应 的 Pygval_EvalFrameEx 
中 。 由 于 在 返回 时 ,设置 的 retval 为 NULL, 所 以 Python 虚拟 机 在 回 到 与 g 对 应 的 pyBval_ 
EvalFrameEx 中 后 再 次 意识 到 有 蜡 常 产生 。 接 下 来 的 动作 就 顺利 成 童 了 ， 同 样 是 创建 
traceback 对 象 ， 同样 是 寻找 程序 员 指定 的 except, 如 果 没 有 指定 异常 捕捉 动作 ， 那么 同 
样 也 要 退出 与 g 对 应 的 PyEval_BvalFrameEx， 和 而 返回 到 与 上 对 应 的 PyEval_EvaFrameEx。 

这 个 说 着 栈 帧 链 不 断 回 退 的 过 程 我 们 称 之 为 栈 帧 展开 。 在 这 个 栈 帧 展开 的 过 程 中 ， 


_Python 虚拟 机 不 断 创建 与 各 个 栈 帧 对 应 的 traceback 对 欧 ， 并 将 其 链接 成 链表 。 图 10-14 
给 出 了 最 终 所 建 空 的 traceback 对 得 链表 : 





图 10-14 traceback 对 象 链表 与 PyFrameObject 对 象 链表 


由 于 我 们 没有 设置 任何 的 异常 捕捉 代码 ， 所 以 最 后 Python 虚拟 机 的 执行 流程 会 一 直 返 
回 到 pyRun_simplerileExFlags 中 。 束 于 为 什么 会 是 这 个 pyRuin_SimpleFileExFiags， 
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我 们 先 可 以 放下 不 管 。 以 后 在 分 析 Python 运行 时 初始 化 时 ， 就 可 以 看 到 这 个 函数 的 地 位 


Wav 





pyRun_FilepxFlags 返回 的 值 就 是 pyEBval_sBvalFrameEx 返回 的 那个 NULL， 所 以 接 ， 
下 来 ， 会 调用 pyErr_print。 正 是 在 这 个 PyErr_Print 中 ，Python 虚拟 机 从 线程 状态 信 
息 中 取出 其 维护 的 traceback 对 象 , 并 遍历 traceback 对 象 链表 ,逐个 输出 其 中 的 信息 ， 
最 终 我 们 也 就 看 到 了 图 10-13 所 展示 的 异常 信息 。 


10.4.2 ”Python 中 的 异常 控制 语义 结构 


10.4.2.1 ”研究 对 象 一 一 exception_control.py 


在 前 面 ， 我 们 细致 地 考察 了 Python 的 异常 在 虚拟 机 的 级 别 上 是 什么 东西 ， 抛 出 异常 
这 个 动作 在 虚拟 机 的 级 别 上 对 应 的 是 什么 行为 ， 最 后 ， 我 们 还 剖析 了 Python 在 处 理 异 常 
时 的 栈 帧 展开 行为 。 但 遗憾 的 是 ， 在 前 面 我 们 只 是 考察 了 Python 虚拟 机 中 内 建 的 处 理 异 
常 的 动作 ， 并 没有 使 用 Python 语言 中 提供 的 异常 控制 结构 。 在 本 节 中 ， 我 们 将 通过 对 
exception_control.py 的 剖析 研究 Python 语言 所 提供 的 异常 控制 结构 如 何 影响 Python 虚拟 
机 的 异常 处 理 流程 。 
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开始 的 两 条 字 节 码 指令 似曾相识 ， 其 实在 前 面 剖 析 Python 的 循环 结构 的 时 候 ， 我 们 
就 曾 说 过 , SETUP_FINALLY 和 SETUP_EXCEPT 一 样 ,它们 都 是 调用 了 PyFrame_BlockSetup。 
为 了 方便 ， 这 里 再 次 给 出 PyFrame_BlockSetup 的 相关 代码 : 


事 到 如 今 ， 想必 聪明 的 你 一 定 看 出 来 了 ，sSETUP_FINALLY 和 SEmUP_BXCEPT 了 两 条 指令 
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不 过 是 从 f_blockstack 中 分 走 两 块 出 去 ， 图 10-15 展示 了 当前 i 
成 四 RN 人 a 9 


bype= spfp FINALL bb J Pp EXCEPT 
b handler= 52 b ne 


图 10-15 SETUP_FINALLY 和 SETUP_EXCEPT 完成 后 的 f_blockstack 









在 这 里 分 出 两 块 pyrryBlock， 肯 定 是 要 在 捕捉 异常 时 使 用 。 不 过 别 着 候 ， 让 我 们 先 
回 到 抛 出 异常 的 地 方 : “15 RAISE_VARARGS 1”。 在 RAISE_VARARGS 指令 之 前 ， 通 过 
LOAD_NAME 0、LOAD_CONST 0、CALL_FUNCTION 工 构造 出 了 一 个 异常 对 象 (CALL_FUNCTION 
的 齐 析 和 对 象 的 构造 、 创建 并非 本 章 关 注重 点 , 所 以 这 里 不 详 述 , 以 后 自 有 独立 章节 前 析 ， 
此 处 只 需 知道 一 个 异常 对 象 已 被 创建 ), 并 将 此 异常 对 象 压 入 运行 时 栈 中 。RATSE_VARARGS 
指令 的 工作 就 从 把 这 个 异常 对 象 从 运行 时 栈 取 出 开始 ， 





这 里 RAISE_VARARGS 后 的 指令 参数 是 1， 所 以 直接 将 异常 对 象 取出 赋 给 w， 然 后 就 调 
用 ao_raise 函数 。 在 do_raise 中 ,最终 将 调用 之 前 剖析 过 的 pyBrr_Restore 函数 ， 将 
异常 对 象 存储 到 当前 线程 的 状态 对 象 中 。 在 Go_raise 的 最 后 , 返回 了 一 个 wiY_EXCEPTION， 
这 就 是 why 变量 的 最 终 状态 。 在 此 之 后 ，Python 点 拟 机 通过 一 个 break 跳出 了 分 发 字 节 
码 指令 的 那个 巨大 的 switch 语句 。 一 旦 结束 了 字 节 码 指 令 的 分 发 ， 异 常 的 捕捉 动作 就 有 
条 不 亲 地 展开 了 。 在 经 过 了 一 系列 繁复 的 动作 之 后 (其 中 包括 创建 并 设置 traceback 对 
象 )，Python 虚拟 机 将 携带 着 (why=WHY_BxXcEPTION, f_iblock=2) 的 信息 抵达 真正 捕捉 
异常 的 代码 ( 见 代码 清单 10-4)。 
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代码 清单 10-4 


在 代码 清单 10-4 的 [处 ，Python 虚拟 机 首先 从 当前 的 Bygrameobjsct 对 象 中 的 
f_blockstack 中 弹出 一 个 PyTryBlock 来 ,从 图 10-15 中 可 以 看 到 ,弹出 的 这 个 是 (5_type= 
SETUP_EXCEPT、b_handler=22) 的 pyTryBlock。 另 一 方面 ， 在 代码 清单 10:4 的 [2] 处 ， 
Python 虚拟 机 通过 Pygrr_Fetch 得 到 了 当前 线程 状态 对 象 中 存储 的 最 新 的 异常 对 象 和 
traceback 对 象 : 
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ee et 


ET 本 
随后 ， ce valvexce pr 并 将 why 设置 为 WHY_NOT。 

怎么 会 是 wHY_NoT 呢 ? 不 是 有 异常 发 生 了 吗 ? 没 错 ， 确 实 应 该 是 waY_NOT， 在 Python 虚 
拟 机 的 执行 路 径 沿 着 代码 清单 10-4 的 [十 、[2] 一 路 向 下 之 后 ，Python 虚拟 机 发 现 了 一 个 类 
型 为 SETUP_EXCEPT 的 pyTryBlock 对 象 ， 已 经 意识 到 程序 员 在 代码 中 已 经 为 捕捉 异常 做 
好 了 准备 ， 那 么 Python 虚拟 机 认为 自己 的 状态 可 以 从 WHY_EXCEPTION 所 代表 的 “发 现 异 
常 状态 ” 转 为 waY_Nonm 代表 的 “正常 状态 ”了 。 而 接 下 来 的 处 理 异常 的 工作 ， 则 需要 交 给 
程序 员 指 定 的 代码 来 解决 ， 这 个 动作 通过 JUMPTO(b->b_handler) 来 完成 。JUMPTO 其 实 
仅仅 是 进行 了 一 下 指令 的 跳跃 ， 将 Python 虚拟 机 将 要 执行 的 下 一 条 指令 设置 为 异常 处 理 
代码 编译 后 所 得 到 的 第 一 条 字 节 和 码 指令 。 


在 exception_control.py 中 ，SETUP_EXCEPT 所 创建 的 pyTryBlock 中 的 b_hanaler 为 
22, 这 时 Python 虚拟 机 将 要 执行 的 下 一 条 指令 就 是 偏 移 量 为 22 的 那 条 指令 , 从 exception_ 
control.py 的 编译 结果 来 看 ， 正 好 就 是 “22 pUP_POP”， 异 常 处 理 代码 对 应 的 第 一 条 字 他 码 
指令 。 


在 处 理 异常 的 字 节 码 指令 中 ， 有 一 条 “26 COMEARE_OP 10” 指 令 ， 这 条 指令 将 比较 
运行 栈 中 存在 的 那个 被 捕捉 到 的 异常 是 否 跟 except 表达 式 中 指定 的 异常 匹配 。 随 后 通过 
一 条 进行 指令 跳跃 的 字 节 码 指 令 “29 JUMP_IF_FALSE 14(to 46) ”来 判断 是 否 需 要 进行 
指令 跳跃 。 如 果 coMPARE_OoP 的 操作 结果 发 现 异常 匹配 , 那么 JUMP_IF_FALSE 就 不 会 进行 
指令 上 跳跃， 而 是 接着 执行 “print e” 表 达 式 对 应 的 字 节 码 指令 ; 而 如 果 COMEARE_OP 发 
现 异常 不 匹配 ， 那 么 JUMP_IF_FLASE 将 跳跃 到 偏 移 量 为 46 的 字 节 码 指令 ; POP_TOP。 图 
10-16 清晰 地 展示 了 处 理 异 常 时 所 发 生 的 不 同 的 指令 跳跃: 








图 10-16 处理 异 常 时 的 指令 跳跃 
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我 们 注意 到 ， 如 果 名 略 “print e” 所 对 应 的 字 节 码 指令 ， 当 异常 不 匹配 时 ， 会 比 异 
常 匹配 时 多 执行 两 条 字 节 码 指令 代码 “46 pop mop，47 END_ FINALLY"。 这 两 条 指令 究 
竟 完 成 怎样 的 工作 呢 ， 我 们 不 妨 分 析 一 下 。 前 面 已 经 提 到 ， 在 进入 except 表达 式 之 前 ， 
Python 虚拟 机 从 当前 线程 的 状态 对 象 中 将 当前 的 异常 信息 取 了 出 来 , 分 别 为 tb vval exec， 
并 将 其 分 别 压 入 运行 时 栈 中 。 当 异常 匹配 时 ， 筷 们 都 会 从 栈 中 取出 来 处 理 掉 ， 如 果 异 常 不 
匹配 ， 就 是 说 虽然 有 except 表达 式 ， 但 是 实际 上 并 没有 处 理 当前 异常 的 代码 。 那 么 很 显 
然 ， 这 时 已 经 取出 来 的 异常 信息 不 能 扔 掉 ， 而 要 重新 放 回 到 线程 状态 对 象 中 ， 然后 重新 设 
置 why 的 状态 ， 让 Python 虚拟 机 的 内 部 状态 重新 进入 “异常 发 生 状态 并 开始 栈 帧 展开 
的 动作 ， 寻 找 真正 能 处 理 异 常 的 代码 。 所 以 这 两 条 指令 就 是 完成 这 个 “ 重 返 异常 状态 ”的 
a ds END_FINALLY 指令 的 实现 代码 可 以 清晰 地 看 到 这 一 点 ， 





多 Python 上 嵌 拟 机 通过 pyBrr_Restore 重新 设置 了 异常 信息 ， 并 把 why 的 状态 设 
置 为 WHY _RERATSE 了 。 


不 管 异 常 是 否 匹配 ， 最 终 处 理 异 常 的 两 条 岔路 都 会 在 “48 pop_BLock” 会 合 ， 





这 里 将 当前 PyFrameobject 的 二 bloekstack 中 还 剩 下 的 那个 与 SETUP_FINALLY 对 
应 的 PyTryBlock 对 象 弹出 ， 然 后 Python 虚拟 机 的 流程 就 进入 了 与 finally 表达 式 对 应 
的 字 节 码 指 令 了 。 

如 果 一 段 代码 只 有 finally 代码 块 而 没有 except 代码 抉 , Python 碟 拟 机 的 行为 又 是 
怎样 的 呢 ， 有 兴趣 的 读者 可 以 自己 分 析 一 下 ， 其 实 与 这 里 所 分 析 的 结果 并 无 二 致 

好 了 ， 总 结 一 下 ，Python 的 异常 机 制 的 实现 中 , 最 重要 的 就 是 why 所 表示 的 虚拟 机 状 
态 及 pyFrameObject 对 象 中 王 blockstack 里 存放 的 PyTryBlock 对 象 了 .变量 why 将 指 
示 Python 虚拟 机 当前 是 否 发 生 了 异常 ， 而 pyrzyBlock 对 象 则 指示 Python 虚拟 机 程序 员 
是 否 为 异常 设置 了 except 代码 块 和 下 nally 代码 块 。 Python 虚拟 机 处 理 异 常 的 过 程 就 是 
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在 why 和 pyTryBlock 的 共同 作用 下 完成 的 。 在 图 10-17 中 给 出 了 Python 中 实现 异常 机 制 
的 详细 的 流程 





图 10-17 ”Python 中 异常 机 制 的 流程 图 
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CHAPTER 





函数 ， 作 为 对 动作 过 程 的 抽象 ， 是 任何 一 门 现 代 编 程 语言 都 具有 的 基本 的 编程 元 素 。 
正 是 因为 有 了 函数 机 制 ， 功 能 分 解 、 代 码 复 用 这 些 目 标 才能 在 程序 中 实现 。 之 前 ， 我 们 曾 
看 过 在 x86 平台 上 函数 调用 时 的 情形 ， 在 那里 我 们 看 到 ， 当 函数 调用 发 生 时 ， 系 统 会 在 运 
行 时 栈 中 创建 新 的 栈 帧 ， 用 于 函数 的 执行 。 在 Python 中 这 个 过 程 也 同样 存在 。 
本 章 我 们 也 将 看 到 ,Python 的 虚拟 机 在 执行 函数 调用 时 会 动态 地 创建 新 的 PyPrameObject 
对 象 。 随 着 函数 调用 链 的 增长 ， 这 些 pyFrameObject 对 象 之 间 也 会 连接 成 一 条 了 VErarme- 
object 对 象 链 ， 这 条 对 象 链 就 是 对 x86 平台 上 运行 时 栈 的 模拟 。 

本 章 将 研究 在 Python 中 对 函数 的 实现 ， 以 及 在 函数 调用 的 过 程 中 ，Python 虚拟 机 的 
一 系列 动作 。 


11.1 PyFunctionObject 对 象 


我 们 说 过 ， 在 Python 中 ， 任 何 东西 都 是 一 个 对 象 ， 函 数 也 不 例外 。 在 Python 中 ,也 
数 这 种 抽象 机 制 是 通过 一 个 Python 对 象 一 PyFunctionobject 一 一 来 实现 的 。 


n 





Python 密码 前 匠 一 深度 扣 甘 动态 语言 区 心 蔽 开 


216 多 第 11 章 Python 虚拟 机 中 的 函数 机 制 





在 PyFunctionObject 对 象 中 ， 并 非 每 一 个 域 都 对 我 们 理解 函数 机 制 有 重要 的 意义 。 
在 本 章 以 后 的 叙述 中 ， 我 们 将 逐渐 介绍 重要 的 域 ， 而 对 有 些 不 重要 的 域 ， 则 会 咯 过 不 谈 。 


在 Python 中 ， 有 两 个 对 象 都 和 函数 有 关 ， pyCodeobject 和 BPyFunctionobject， 这 
两 个 对 象 的 区 别 非常 重要 。pycodeObject 对 象 是 对 一 段 Python 源 代码 的 静态 表示 。Python 
对 源 代码 经 过 编译 后 ， 对 一 个 Code Block 会 产生 一 个 且 只 有 一 个 pycodeObject， 这 个 
PyCodeObject 对 象 中 包含 了 这 个 Code Block 的 一 些 酌 态 的 信息 ， 所 谓 静 态 的 信息 是 指 可 
以 从 源 代码 中 看 到 的 信息 。 比 如 Code Block 中 有 a =1 这 样 的 表达 式 , 那么 符号 a 和 值 1， 
以 及 它们 之 间 的 联系 就 是 一 种 静态 的 信息 ， 这 些 信息 会 分 别 存储 在 Bycodeobject 的 常量 
表 co_consts， 符 号 表 co_names 以 及 字 节 码 序列 co_code 中 ， 这些 信息 是 编译 时 就 可 以 
得 到 的 ， 因 此 PyCodeObiject 是 编译 时 的 结果 。 


而 PyFunctionobject 则 不 同 , pyFunctionobject 对 象 是 Python 代码 在 运行 时 动态 
产生 的 ， 更 准确 地 说 ， 是 在 执行 一 个 aef 语句 的 时 候 创 建 的 。 在 pyFuncEionobject 中 ， 
当然 会 包括 这 个 函数 的 静态 信息 ， 这 些 信息 存储 在 func_code 中 ， 实 际 上 ，func_code 
一 定 会 指向 与 函数 代码 对 应 的 pycodeobject 对 象 。 除 此 之 外 ，PyFunctionobject 对 象 
中 还 包含 了 一 些 函 数 在 执行 时 必需 的 动态 信息 ， 即 上 下 文 信息 ， 比 如 func_globals， 就 
是 函数 在 执行 时 关联 的 global 作用 域 。global 作用 域 中 的 符号 和 值 的 对 应 关系 必须 在 运 
行 时 才能 确定 ， 所 以 这 部 分 必须 在 运行 时 动态 创建 ， 无 法 存储 在 Pycodeobject 中 。 


对 于 一 段 Python 代码 ， 其 对 应 的 pycodeobject 对 象 只 有 一 个 ， 而 代码 所 对 应 的 
”PyFunotionobject 对 象 却 可 能 有 很 多 个 ， 比 如 一 个 函数 多 次 调用 ， 则 Python 会 在 运行 时 
创建 多 个 peyFunctiocnobject 对 象 ， 每 一 个 pyrunctionobject 对 象 的 func_code 域 都 会 
关联 到 这 个 PycodeObject 对 象 。 图 11-1 展示 了 这 种 pyFunctionObject 与 pycodeObject 
对 象 之 间 的 关系 。 





11-1 PyCodeObject 对 象 与 PyFunctionObject 对 象 的 关系 
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11.2 无 参 函数 调用 





11.2.1 ” 通 数 对 象 的 创建 


我 们 对 Python 中 函数 的 剖析 从 无 参 函数 的 调用 开始 ， 因 为 无 参 函 数 调用 是 最 简单 的 
函数 调用 形式 。 从 无 参 函 数 入 手 , 我们 可 以 在 开始 时 不 去 考虑 复杂 的 参数 传递 机 制 这 样 的 
细节 ， 而 将 关注 的 焦点 放 在 函数 调用 的 整个 流程 框架 上 ， 以 求 对 Python 中 的 函数 调用 机 
制 有 一 个 整体 框架 层面 的 了 解 。 我 们 剖析 的 对 象 是 如 下 所 示 的 func_0.,py， 下 面 列 出 了 
func_0.py 源 代码 及 经 过 编译 后 的 字 节 码 序列 。 


. 
中 








SI eT 





以 前 我 们 考察 的 代码 在 经 过 Python 编译 后 , 都 只 会 产生 一 个 pycodeobjsct 对 象 ， 而 
在 本 章 中 ,我 们 所 考察 的 代码 经 过 编译 后 都 会 产生 至 少 两 个 pycodeobject 对 象 。 源 文件 
func_0.py 经 过 编译 后 ， 产 生 的 两 个 pycodeobject 对 象 中 ， 一 个 对 应 整个 func_0.py， 而 
另 一 个 对 应 函数 f。 这 两 个 pycodeobject 对 象 中 的 常量 表 so_const 和 符号 表 co_names 
如 图 11-2 和 图 11-3 所 示 : 

- <conNnsts> 
+ <codeObiect> 
<NoneObject /> 
</consts> 
- <names> 

<strRef index="1" valve="f” /> 

</names> 
<vatNames /> 


图 11-2 func_0.py 对 应 的 PyCodeObject 对 象 








四 RN 
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- <Consts> 
<Noneobject /> 
<Intermstr index= "0" length="8" value="Function" /> 
</consts> 
<names /> 
<varNames /> 


11-3 还 数 f 对 应 的 PyCodeObject 对 象 
注意 在 图 11-2 的 consts 中 的 那个 codeObject 就 是 与 函数 对 应 的 pycodeobject 对 
象 , 也 正 是 图 11-3 所 示 的 那个 pycodeobject 对 象 。 在 图 11-4 中 ,我们 在 IDLE 中 观察 到 
了 这 两 个 pyCodeObject 对 象 之 间 的 联系 ， 


"” "Tunc QDpy 


>>> typel(co.co consts {0]) 


<type 'code’> 

>>> CO.CO name 

"<moduie>" 

>>> CO.CcO_ consts[0] .co name 
I 





图 11-4 两 个 PyCodeObject 对 象 间 的 关系 


当 Python 虚拟 机 执行 func_0.py 编译 后 的 字 节 码 指令 序列 时 ， 与 我 们 之 前 所 考察 的 字 
节 码 执行 机 制 不 同 。 虽 然 在 我 们 所 列 出 的 代码 文件 中 ，aeE El) 的 最 后 一 条 指令 “6 
STORE_NAME 0” 和 print “punction” 的 第 一 条 指令 “0 LOAD coNsm 1” 是 按 顺序 相连 
的 ， 但 是 实际 情况 并 非 如 此 。 


Python 处 拟 机 在 执行 完了 def ft) 对 应 的 字 节 码 指 令 之 后 ， 并 不 会 执行 print 
“Function” 对 应 的 字 节 码 指 令 , 而 是 会 执行 函数 调用 语句 () 所 对 应 的 第 一 条 字 节 码 指 
令 ， 即 “9 LOAD_NAME 0” 这 是 因为 实际 上 在 func_0.py 编译 后 得 到 的 与 func_0.py 对 应 
的 pycodeobject 对 象 中 , 字 节 码 指 令 序列 中 根本 就 没有 print“Function” 对 应 的 字 节 
码 指令 ，print 语句 对 应 的 字 节 码 指令 序列 是 在 与 函数 E 对 应 的 Bycodeobject 对 和 象 中 。 
只 是 在 我 们 显示 时 ， 只 能 平面 地 显示 字 节 码 指令 序列 ， 不 能 显示 出 它们 的 层次 结构 。 这 一 
点 需要 注意 。 


细心 的 读者 可 能 已 经 注意 到 了 ， 在 上 一 段 的 描述 中 ， 隐藏 着 一 个 惊天 的 秘密 。 按照 党 
理 来 看 ，fun_0.py 中 第 1 行 Python 代码 和 第 2 行 Python 代码 应 该 是 一 个 完整 的 整体 ， 正 
是 它们 分 别 构成 了 函数 的 声明 和 函数 的 实现 。 但 是 在 我 们 上 一 段 的 叙述 中 ,看 上 去 ， 函 数 
的 声明 与 函数 的 实现 是 分 离 的 ， 甚 至 是 分 离 在 了 不 同 的 PyCodaObject 对 象 中 。 没 错 ， 确 
实 是 这 样 ， 第 1 行 代码 虽然 和 第 2 行 代码 确实 在 逻辑 上 是 一 个 整体 ， 但 是 在 Python 实现 
这 个 函数 时 ， 却 在 物理 上 将 它们 分 离开 了 。 其 实 , 第 1 行 代 码 所 对 应 的 字 节 码 指令 序列 也 
必须 在 func_0.py 对 应 的 pycodeobject 对 象 中 ， 因 为 我 们 说 过 ， 在 Python 中 ， 函 数 也 是 
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一 个 对 象 。 在 与 func_0:py 对 应 的 Pycodeobject 对 象 中 ， 包 含 着 函数 调用 语句 £() 的 字 
节 码 指令 序列 ， 那 么 ， 在 能 调用 一 个 函数 之 前 ，Python 必须 首先 创建 这 个 函数 对 象 。 而 这 
个 函数 对 象 的 创建 工作 正 是 在 def E() 这 条 代码 处 完成 的 。 从 语法 上 讲 ，aes #() 是 函数 
声明 语句 ; 而 从 虚拟 机 的 区 度 看 ， 它 其 实 是 函数 对 象 的 创建 语句 。 图 11-5 展现 了 函数 机 制 
的 这 种 分 离 现象 。 





func_0.py 的 函数 {的 


图 11-5 ”函数 声明 与 函数 定义 的 分 离 
Python 走 拟 机 在 执行 def 语句 时 ， 会 动态 地 创建 一 个 函数 ， 即 一 个 PyFunctionobject 
在 这 个 过 程 中 ，MAKE_FUNcTION 指令 是 一 个 关键 : 


一 一 人 
Hs enim al 1 
ji L ry oo a Ey Tl 2 
} ” 本 v . ye YE 了 | ps + 1 





看 到 ， 这 条 指令 将 函数 上 对 应 的 PyCodeObject 对 象 压 入 到 了 运行 时 栈 中 。 所 以 ， 在 执行 
MAKE_FUNCTION 时 ， 首 先 就 是 将 这 个 Pycodeobject 对 象 弹出 运行 时 栈 ， 然 后 以 该 对 象 和 
当前 pyFrameobject 对 象 中 维护 的 global 名 字 空 间 £f_globals 对 象 为 参数 ， 通 过 
PyFunction_New 创建 一 个 新 的 PyFunctionobject 对 象 ， 而 这 个 上 _elobals， 将 成 为 函 
数 工 在 运行 时 的 global 名 字 空 间 《【 昂 代码 清单 11-1)。 

代码 清单 11-1 


R 
ce 上 





-| 
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在 创建 了 pyFunctionobject 对 象 之 后 , MAKE_FUNCTION 还 会 进行 一 些 处 理 函 数 参 数 
的 动作 ， 由 于 我 们 的 £ 是 一 个 最 简单 的 无 参 函 数 ， 没 有 任何 参数 ， 所 以 在 这 里 略 过 不 谈 。 
在 对 带 参 函数 的 剖析 中 ,我们 会 深入 地 考察 参数 的 传递 机 制 。 在 这 一 节 ， 我 们 的 目的 是 建 
立 起 对 Python 函数 调用 过 程 的 总 体 框架 ， 尽 管 可 能 非常 简陋 ， 而 且 有 许多 细节 的 遗失 ， 
不 过 这 个 总 体 框架 的 建立 对 以 后 的 深入 考察 是 大 有 神 益 的 。 

在 MAKE_FUNCTION 结束 之 后 , 新 建 的 pyrunctionobject 对 象 通过 pysH 操作 被 压 入 
到 了 运行 时 栈 中 ,随后 的 sroRE_NaAxME 和 Loap_NaME 的 作用 这 里 不 再 详 述 。 到 了 这 里 ， 大 
家 应 该 对 这 两 条 指令 及 其 动作 相当 熟悉 了 。 图 11-6 展示 了 def fl) 语句 执行 完成 之 后 运 





行 时 栈 和 local 名 字 空 间 的 情形 。 
一 全 
图 11-6 创建 PyFuctionObject 对 象 之 后 的 虚拟 机 状态 


11.2.2 ”函数 调用 


从 “12 CaLL_EUNCTION 0” 指 令 开始 ，Python 虚拟 机 就 进入 了 激动 人 心 的 函数 调用 
动作 : 





Python 滚 权 削 匠 一 一 深度 并 策动 条 语 言 琅 心 大 下 


ee OM 
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时 栈 栈 项 指针 之 后 ， 就 杀 入 了 call_function〔 见 代码 清单 11-2)。 


代码 清单 11-2 





可 以 看 到 , 不 光 是 我 们 的 Funccion， 另外 两 个 家 伙 , crunction 和 Methoa 的 调用 也 
会 进入 这 个 call_functiony， 当然 ， 这 里 我 们 把 关注 的 焦点 集中 在 Function 上 ， 不管 
cPuncticn 和 Method: 

Python 虚拟 机 在 代码 清单 11-2 的 [3] 处 通过 了 PyFunction_Check 的 检查 之 后 ， 就 会 
进入 fast_functione。 这 里 需要 重点 关注 一 下 fast_function 的 参数 func， 同时 这 个 
func 也 是 被 pyrunction_Check 进行 检查 的 对 象 ， 我 们 猜想 ， 它 一 定 就 是 通过 aeE E() 
创建 的 那个 pyFunctionobject 对 象 。 

在 call_Function 开始 的 代码 清单 11-2 的 [1 处 ， 有 一 些 处 理 函 数 参 数 信息 的 动作 ， 
现在 我 们 不 深入 阐述 ， 只 需要 记 住 ， 其 中 计算 得 到 的 指明 了 在 运行 时 栈 中 ， 栈 顶 的 多 少 


Python 涛 三 前 新 一 党 麻 达 委 动 态 语言 述 心 接 下 
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个 元 素 是 与 参数 相关 的 。 当 然 对 于 我 们 的 £E， 这 里 的 na、nk、n 都 会 是 0， 所 以 在 代码 清 
单 11-2 的 [2] 处 ,pFunc 的 值 就 是 pp_stack-1, 因 为 pp_stack 就 是 我 们 在 cALL_ 
的 指令 代码 中 传 入 的 当前 运行 时 栈 的 栈 顶 指针 ， 所 以 很 显然 ，*pFunc， 也 就 是 Fune， 指 
向 了 Python 虚拟 机 在 CALE_FUNCmION 之 前 通过 “Toap_NAME 0” 指 令 压 入 到 运行 时 栈 中 
的 那个 在 MAKE_FUNCTION 中 创建 的 pyFunctionobject 对 象 。 

好 了 ， 闲 话 少 说 ， 我 们 进入 fast_tunction【( 见 代码 清单 11-3)。 
代码 清单 11-3 








进入 了 fast_function 之 后 ， 首 先 会 抽取 出 pyrunctionobject 对 象 中 保存 的 
PyCodeObject 对 象 及 函数 运行 时 的 global 名 字 空 间 等 信息 。 然 后 ， 我 们 看 到 ，fast_ 
function 中 实际 上 是 包含 了 两 条 执行 路 径 ,无 参 函 数 会 在 代码 清单 11-3 的 [1] 处 作出 判断 ， 
并 进入 一 般 函 数 的 通道 ,所谓 一 般 函 数 , 我 们 会 在 后 面 介绍 。 在 一 般 函 数 的 通道 中 , Python 
虚拟 机 会 创建 新 的 Pyerameobject 对 象 ， 进 而 调用 pyEval_EvalFrameEx， 在 pyEval_ 
EvalFrameEx 中 发 生 的 事 ， 我 们 应 该 是 很 熟悉 的 了 。 


Python 次 涪 剖 新 一 一 深度 这 贰 动态 注 膏 检 心 横 冻 
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而 在 另 一 条 路 径 上 ， 横 豆 着 PyEval_EvalcodeEx。 在 函数 pyEval_EvalcodeEx 中 ， 
包含 着 一 系列 复杂 而 繁多 的 动作 , 但 是 如 果 追 踪 下 去 , 在 最 后 我 们 还 是 会 看 到 一 个 ByEval_ 
EvalFrameEx。 也 就 是 说 ， 无 参 函 数 进 入 fast_function 之 后 ， 最 终 会 进入 pyEval_ 
EvalRxrarmeExy Python 虚拟 机 在 一 个 新 的 PyFramsObiect ( 栈 帧 》 环境 中 开始 一 次 执行 新 
的 字 节 码 指令 序列 的 循环 ， 这 个 新 的 字 节 码 指令 序列 正 是 函数 所 对 应 的 字 节 玛 指令 序列 。 
在 我 们 的 funce_0.py 中 ， 也 正 是 函数 主 中 那 条 print 语句 对 应 的 字 节 码 。 


从 PyEval_EvalFrameEx 开始 ，Python 虚拟 机 也 就 真正 进入 了 所 谓 的 “函数 调用 ”的 
状态 。 这 个 过 程 实际 上 就 是 对 x86 平台 上 函数 调用 过 程 的 模拟 : 创建 新 的 栈 帧 ,在 新 的 栈 
巾 中 执行 代码 。 有 一 点 需要 注意 ， 在 最 终 通过 PyEval_EvalFrameEx 时 ，ByFunctton- 
object 对 象 的 影响 已 经 消失 了 ， 真正 对 新 栈 帧 产生 影响 的 是 在 PyFunctEicnebject 中 存 
储 的 Pycodeobject 对 象 和 global 名 字 空 间 。 也 就 是 说 ，PyFunctionobject 辛 著 一 场 ， 
到 头 来 ， 实际 上 是 为 他 人 做 了 嫁 衣 党 。 PyFunctionObiject 主要 是 对 字 节 码 指令 和 dlobal 
名 字 空 间 的 一 种 打包 和 运输 方式 。 


前 面 我 们 提 到 了 一 般 函 数 这 个 概念 ， 在 Python 中 ， 什 么 样 的 函数 是 一 般 函 数 呢 ? 也 
就 是 说 ， 什 么 样 的 函数 能 进入 快速 通道 呢 ? 举 个 例子 吧 ， 像 C、C++、Java 中 那样 的 函数 
就 可 以 ,比如 Draw(x, Y) 这 样 的 函数 , 而 像 Python 独 有 的 函数 ,如 Draw({x, *kay, **dict) 
这 样 的 函数 则 不 行 ，Python 正 是 靠 函 数 参数 的 形式 来 决定 是 否 可 以 进入 快速 通道 的 。 


11.3 ”函数 执行 时 的 名 字 空 间 


现在 ， 我 们 对 Python 中 函数 调用 机 制 的 大 体 框 架 比 较 熟 悉 了 ， 在 此 基础 上 ， 来 看 一 
个 细节 的 问题 。 在 调用 PyFunction_New 时 ， 有 一 个 参数 是 globals, 这 个 globals 最 终 
将 成 为 与 函数 对 应 的 PyFrameobject 中 的 global 名 字 空 间 一 一 f_globals。 


还 记得 当初 对 LoAD_NAME 指令 的 分 析 吗 ? 在 执行 LoAD_NaM5 指令 时 ，Python 虑 拟 机 
会 依次 从 三 个 PyDictoObject 对 象 中 进行 搜索 ， 搜 索 的 顺序 是 : £_locals、f_globals，、 
f_builtins。 在 PyFunction_New 了 时 传 入 的 globals 将 成 为 在 新 的 栈 帧 中 执行 函数 皇 时 
的 global 名 字 空 间 。 而 在 MAKE_FUNCTION 的 指令 代码 中 ， 我 们 看 到 这 个 giobais 实际 
上 就 是 当前 PyFrameObject 对 象 中 的 f_globals。 这 就 意味 着 ， 在 执行 func_0.py 的 字 节 
码 指令 序列 时 的 global 名 字 空 间 和 执行 函数 上 的 字 节 码 指令 序列 时 的 global 名 字 空 间 
实际 上 是 同一 个 名 字 空 间 。 实 际 上 这 个 名 字 空 间 是 通过 pygunctionobject 的 携带 ， 和 字 
节 码 指令 序列 对 应 的 peycodeobject 对 象 一 起 被 传 入 到 新 的 栈 帧 中 的 。 图 11-7 展示 了 当 
Python 虚拟 机 在 执行 函数 £ 的 字 节 码 指令 序列 时 , PyFrameobject 对 象 之 间 的 关系 及 它们 
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与 global 名 字 空 间 的 关系 。 
func_0.py 对 应 的 PyFrameObject 





图 11-7 ”函数 调用 时 PyFrameObiject 对 象 与 global 名 字 空 间 的 关系 


考虑 下 面 一 段 Python 代码 ， 我 们 看 看 在 调用 pyFunction_New 时 ， 这 个 globals 到 
底 包 含 什么 东西 : 






修改 Python 源 代 码 ， 在 aef £ () 对 应 的 MAKE_FUNCTION 指令 代码 调用 pyFunetion_ 
New 之 前 ， 将 globals 的 内 容 输 出 ， 如 图 11-8 所 示 : 


a’ 1 





图 11-8 ”调用 PyFuction_New 之 前 的 global 名 字 空间 


:func_G.py’ 
EE __Jnain 





”图 11-9 CALL_FUNCTION 中 的 global 名 字 空 间 


可 以 看 到 , 在 Python 源 代 码 中 定义 的 符号 都 包含 在 了 这 个 giobals 中 , 这 使 得 在 函数 
中 可 使 用 a、b， 正 是 依靠 这 个 globals 的 传递 ， 才 使 得 函数 £ 可 以 使 用 函数 f 以 外 的 符号 。 


万 如 on 涛 让 测 新 一 一 次 民 尊 英 动 各 语言 巷 心 花 天 
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到 了 这 里 ， 如 果 你 仔细 观察 ， 会 发 现 一 个 致命 的 问题 。 那 就 是 在 这 个 globals 中 ， 居 
然 没有 上 自身 ， 这 就 会 导致 一 个 严重 的 后 果 ， 即 在 三 中 不 能 再 调用 函数 E， 也 就 是 说 ， 递 
归 通 数 没 办 法 实现 了 。 

事实 实 的 是 这 样 的 吗 ? 当然 不 是 ，Python 显然 是 支持 函数 的 递归 调用 的 。 那 么 问题 的 
关键 在 哪里 呢 ? 同样 ,在 catb_PUNCTION 指令 的 开始 处 将 已 经 创建 的 ByFunctioncobject 
对 象 中 的 Func_globals 输出 来 看 看 ， 结 果 如 图 11-9 所 示 。 


可 以 看 到 ， 这 时 符号 £ 已 经 进入 了 当前 Func_globals， 因 此 ， 符 号 了 就 一 定 会 出 现 
在 函数 对 应 的 那个 PyFrameobject 对 象 中 的 £E_globals 中 ， 使 得 函数 的 递归 调用 得 以 
实现 。 那 么 £ 这 个 狂 猎 的 符号 是 在 什么 时 候 偷偷 地 溜 进 当 前 Pygrameobject 对 象 的 
f_globals 的 呢 ? 


我 们 回 过 头 来 看 看 ， 如 果 咯 去 那个 函数 gs， 基本 上 就 是 我 们 之 前 考察 的 funce_0.py， 那 
么 在 MAKE_FUNCTION 和 caLL_PUNCTION 之 间 只 有 两 条 字 节 码 , STORE_NAME 和 LOAD_NAME， 
而 LoaD_NaME 显然 没有 那么 大 的 法 力 , 玄机 正 是 在 这 个 groRE_NAMS 中 。 前 面 我 们 分 析 过 ， 
STORE_NAME 是 将 一 个 符号 和 符号 对 应 的 值 存 放 到 当前 pyFramsobject 对 象 的 local 名 字 
空间 £_locals 中 。 妙 就 妙 在 , 当 开 始 执行 func_0.py 时 , 第 一 次 进入 pyEval_EvalFrameEx 
时 的 那个 作为 参数 的 pyFrameobject 对 象 , 它 的 £_locals 和 Ff_globals 竟然 是 指向 同一 
个 pybictobject 对 象 的， 这 一 点 可 以 在 pyrrame_New 中 清晰 地 看 到 。 不 过 仔细 想 一 想 ， 
这 样 的 安排 其 实 也 是 理所当然 的 ， 因 为 在 func_0,py 外 层 ， 什 么 都 没有 了 ， 也 不 会 有 别 的 
作用 域 了 。 所 以 ， 当 STORE_NRAME 指令 将 符号 £ 放 入 local 名 字 空 间 E_locals 时 ， 也 就 
同时 将 E 放 进 global 名 字 空 间 £_globals 中 了 。 


仔细 地 看 一 看 ， 这 里 实际 上 还 隐藏 着 另 一 个 有 趣 的 结论 : 在 三 中 我 们 甚至 可 以 使 用 函 
数 g 了 ， 虽 然 s 是 在 之 后 被 定义 的 。 因 为 在 执行 (0) 时 ， 函 数 对 象 5 已 经 被 创建 产生 ， 
并 且 被 加 入 到 E_locals(E_glocbals) 中 了 ， 于 是 就 可 以 使 用 了 ， 这 一 点 是 跟 C 语言 完全 
不 闻 的 。 C 语言 中 函数 是 否 可 调用 《〈 可 编译 通过 ) 完全 是 基于 源 代码 中 函数 出 现 的 位 置 做 
的 分 析 ， 而 Python 则 依靠 的 是 运行 时 的 名 字 空 间 。 


11.4 ”函数 参数 的 实现 


函数 ， 必 须要 配 上 参数 才 会 变 得 有 趣 ， 并 呈现 出 万 千 变 化。 否则 ， 函 数 就 会 像 一 滩 死 
水 ， 会 显得 太 死 板 。 在 这 一 节 ， 我 们 将 深入 研究 函数 参数 。 上 面 我 们 已 经 分 析 了 函数 调用 
的 整体 框架 ， 这 一 节 的 重点 会 放 在 参数 的 传递 机 制 上 。 同 时 ， 在 本 节 中 ,我们 也 将 剖析 函 
数 中 局 部 变量 的 实现 方式 。 


在 Python 的 函数 机 制 中 ， 参 数 一 共 分 为 四 种 类 别 的 参数 ， 我 们 对 函数 参数 的 剖析 就 
从 参数 的 类 别 开 始 。 
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11.4.1 参数 类 别 


在 Python 中 ， 函 数 的 参数 根据 形式 的 不 同 可 以 分 为 四 种 类 别 ， 分 别 如 下 所 示 : 
> 位置 参数 (positional argument); Eta，b)、a 和 bb 被 称 为 位 置 参数 ; 
> 键 参数 (key argument): f(a, b, name='Python')， 其 中 的 name='Python' 被 称 为 

键 参数 ; 
> ”扩展 位 置 参数 〈excess positional argument):， deF F(a，b，*1ist)， 雌 中 的 *1ist 被 

称 为 扩展 位 置 参 数 ; 
> ”扩展 键 参数 (excess key argument); Gef (a, b,，**keys)， 其 中 的 x*key 被 称 为 扩 

有 展 键 参数 。 

扩展 位 置 参数 是 位 置 参 数 的 更 高 级 的 形式 ， 一 个 扩展 位 置 参 数 的 存在 允许 我 们 在 调用 
函数 时 向 函数 传 入 数量 可 变 的 位 置 参 数 , 在 某 些 情况 下 , 这 会 给 程序 设计 带 来 极 大 的 便利 。 
扩展 键 参 数 和 键 参 数 之 间 的 关系 也 是 如 此 。 

在 之 前 对 无 参 函数 的 调用 的 剖析 中 ， 我 们 在 call_function 中 看 到 了 一 些 处理 函 数 
参数 信息 的 操作 ， 当 时 由 于 我 们 的 目的 在 于 快速 建立 Python 中 函数 调用 机 制 的 整体 框 如 ， 
所 以 略 过 了 。 在 这 一 节 中 ， 我 们 将 详细 地 剖析 Python 在 call_sunction 中 处 理 函数 信息 
的 操作 。 我 们 先 来 回顾 一 下 call_function ( 见 代码 清单 11-4)。 
代码 清单 11-4 


人 
EY 
大 七 总 全 二 区 。 与 ; 











当 Python 虚拟 机 开始 执行 CALL_FUNCTION 指令 时 , 会 首先 获得 一 个 指令 参数 oparg。 
在 这 个 指令 参数 oparg 中 ,实际 上 记录 的 是 函数 参数 的 个 数 信息 ， 包 括 位 置 参数 的 个 数 和 
键 参数 的 个 数 。 虽 然 扩 展位 置 参数 和 扩展 键 参 数 是 位 置 参 数 和 键 参数 的 更 高 级 形式 ， 但 是 
本 质 上 扩展 位 置 参 数 是 由 多 个 位 置 参 数 构成 的 。 这 就 意味 着 ， 虽 然 Python 中 存在 四 种 参 
数 形式 ， 但 是 实际 上 我 们 只 需要 记录 位 置 参 数 的 个 数 和 键 参 数 的 个 数 ， 就 能 知道 一 共有 多 
少 个 参数 ， 一 共 需 要 多 大 的 内 存 空间 来 维护 参数 。 
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cALL_FUNCTION 指令 参数 的 长 度 是 两 个 字 节 ， 在 低 字 节 ， 记录 着 位 署 参 数 的 个 数 ， 在 
高 字 节 ， 记 录 着 键 参数 的 个 数 。 因 此 ， 在 理论 上 ，Python 中 的 函数 只 能 有 256 个 位 置 参数 
和 256 个 键 参数 ， 不 过 这 已 经 足够 了 ， 估 计 没 有 哪个 变态 的 函数 会 需要 如 此 多 的 参数 。 


从 eall_functioa 中 我 们 可 以 看 到 na 实际 上 就 是 位 置 参 数 的 个 数 ， 而 nk 则 是 键 参 
数 的 个 数 。 下 面 我 们 将 通过 修改 Python 源 代码 ， 在 call_function 中 添加 输出 信息 ， 来 
观察 拥有 不 同 种 类 参数 的 函数 中 的 na 和 nk 究竟 是 多 少 。 在 输出 na 和 nk 的 同时 , 我 们 还 
输出 了 函数 对 应 的 PycodeObject 对 和 象 中 维护 的 两 个 与 参数 有 关 的 信息 ; co_argcount 和 


CoO Tilocalss 


您 可 能 觉得 奇怪 了 了 ，co_nlocals 看 上 去 应 该 表示 局 部 变量 的 个 数 ， 怎 么 又 会 和 函数 
参数 扯 上 关系 呢 ? 如 果 co_nlocals 包含 着 函数 参数 的 个 数 , 那么 co_argcount 不 就 是 多 
此 一 举 了 吗 ? 实际 上 ， 在 Python 中 ， 函数 参数 和 函数 的 局 部 变量 关系 非常 密切 ， 在 某 种 
意义 上 ， 函 数 参数 就 是 一 种 函数 局 部 变量 ， 它们 在 内 存 中 是 连续 放置 的 。 当 Python 需要 
为 函数 申请 存放 局 部 变量 的 内 存 空 间 时 ， 就 需要 通过 co_nlocals 知道 局 部 变量 的 总 数 ， 
所 以 只 有 在 ce_nlocals 中 包含 参数 的 数量 ， 才能 为 参数 申请 内 存 空间 。 有 虽然 co_nlocals 
中 包含 了 参数 的 数量 ， 但 是 没有 办 法 从 中 获得 这 个 数量 ， 所 以 还 必须 有 另外 一 个 co_ 
argcount 来 告诉 Python 函数 一 共有 多 少 个 参数 。 是 不 是 觉得 有 点 党 了 ? 不 要 紧 ， 随 着 我 
们 剂 析 的 深入 ， 你 会 看 到 函数 参数 和 局 部 变量 的 区 别 和 联系 。 下 面 我 们 开始 我 们 的 实时 观 
察 (左边 显示 的 是 函数 调用 操作 的 指令 序列 )。 


pa 


>>> py funs(1l, 2) 
[esil tunction] : na=2, nk=0, re2 
function) :+ oO erdcount=2, co nliocals=2 


>>> Py puncll, be2) 
| [cell function] : na=i, nk=1, re3 
feall function] $ co YICOUNt=2, CO nlacals=a 





从 例 1 和 例 2 的 对 比 可 以 看 出 ， 函数 参数 中 一 个 参数 是 位 置 参 数 还 是 键 参 数 实际 上 仅 
仅 是 由 函数 实 参 的 形式 所 决定 的 ， 而 与 消 数 定义 时 的 形 参 没 有 任何 关系 。 从 例 1 到 例 2， 
同样 是 为 第 2 个 参数 b 传递 参数 值 2， 由 于 采用 了 不 同 的 实 参 形式 ， 就 从 位 置 参 数 变 为 了 
键 参数 。 而 (na, nk) 对 也 从 (2,0) 变 为 了 (1，1)。 可 见 ，na 和 nk 确实 忠实 地 反映 着 位 
营 参 数 和 键 参数 的 个 数 。 
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虽然 在 例 1 和 例 2 中 ，na+nk 的 值 是 一 样 的 ， 都 是 2， 但 是 我 们 看 到 ，n 的 值 却 是 不 
同 的 。 在 例 1 中 ，n 为 2; 而 在 例 2 中, n 为 3。 这 个 不 同 源 自 n 的 计算 公式 ; n=na+2*nk。 
那么 为 什么 会 有 这 个 怪异 的 公式 呢 ， 这 一 切 都 要 从 ja 的 意义 说 起 。 

回 到 call_tunction 中 ， 之 前 我 们 就 曾 提 和 到，Python 虚拟 机 会 通过 PyObject *Eunc 
= *pfunc 这 条 语句 使 func 指向 运行 时 栈 中 存放 的 pyfunction0bject 对 象 。 在 这 条 语句 
之 前 有 pfunc = (*pp_stack)-n-1， 其 中 pp_stack 是 当前 运行 时 栈 的 栈 顶 指针 。 所 以 
pfunc 就 是 栈 项 指针 回 退 (ax1) 后 的 结果 。 从 例 1 和 例 2 左边 的 指令 序列 可 以 看 到 , Python 
虚拟 机 首先 将 PyFunctionobject 对 象 压 入 到 运行 时 栈 ， 接 着 会 将 所 有 的 与 “参数 有 关 的 
信息 ”也 压 入 到 运行 时 栈 中 ， 这 些 信 息 的 个 数 会 因 函 数 的 不 同 而 不 同 ， 所 以 在 call_ 
tunction 中 ， 如 果 我 们 想 成 功 地 回 退 到 运行 时 栈 中 pyFunctionobject 的 位 置 处 ， 必 须 
获得 参数 有 关 的 信息 的 个 数 ， 这 个 个 数 正 是 n。 由 于 位 置 参数 会 导致 一 条 LOAD_coNsT 指 
令 ， 而 键 参数 会 导致 两 条 LOAD_coNST 指令 ， 所 以 n 的 计算 公式 一 定 是 n=na+2*nk。 


为 什么 键 参数 会 导致 两 条 LoaD_coNsT 指令 昵 ? 换 句 话说， 在 例 2 中 传递 “bp 是否 
必要 昵 ? 考 虚 一 个 带 有 冉 认 参数 值 的 了 沙 数 def f(a=1，b=2，c=3)， 假 如 我 们 这 样 调用 f: 
ftb=4)， 我 们 希望 替换 b 的 默认 值 ， 而 保留 a 和 c 的 默认 值 ， 如 果 不 传递 “b"”，Python 
加 何 知 道 是 要 替换 哪个 变量 的 默认 值 呢 ? 这 正 是 键 参数 的 作用 。 

3, i be 


>>> def By Func(la, bh, *l1ist): 
Ps 


>>> Py Func(i, 2, 3, 4) 
吕 fcall function] : na=4, nk=0, n=4 
| [esll function] : co argcount=2, co nlocals=3 


关于 扩展 位 置 参 数 的 使 用 ， 有 一 点 需要 特别 注意 。 在 Python 函数 的 参数 表 之 中 ， 非 
键 参 数 的 位 置 必须 在 键 参 数 之 前 ， 所 以 By_Func(1，b=2，35，34) 这 样 的 函数 调用 是 非法 
的 。 从 na 的 值 可 以 看 到 ， 扩 展位 置 参数 的 信息 确实 被 归 在 了 位 置 参数 一 类 。 


在 第 2 行 输出 信息 中 ， 我 们 发 现 了 一 些 奇 特 的 地 方 ， 在 例 1 和 例 2 中 ，co_argcounr 
的 值 和 co_nlocals 的 值 是 相同 的 ， 这 是 因为 在 函数 内 没有 局 部 变量 。 但 是 在 例 3 中 ， 函 
数 内 同样 没有 局 部 变量 ，co_argcount 和 co_nlocals 的 值 却 是 不 相同 的 。 如 此 说 co_ 
nlocals 的 值 为 3 还 是 合理 的 ， 那 么 最 奇怪 就 是 ， 表 示 函 数 参数 个 数 的 co_argcount 的 
值 居 然 是 2， 而 Py_Func 的 定义 中 明明 声明 了 三 个 参数 。 唯 一 合理 的 解释 是 Python 内 部 
将 扩展 位 置 参数 *1ist 作为 一 个 局 部 变量 了 , 这 样 才 会 有 co_argcount=2, co_nlocals=3 
的 结果 。 
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我 们 还 能 看 到 , 尽管 我 们 调用 函数 时 传递 了 四 个 参数 ， 但 是 这 丝毫 不 能 影响 co_argcount 
和 co_nlocals 的 值 ， 实际 上 不 论 这 里 传递 的 是 多 少 个 函数 ， 都 不 能 影响 Co argcount 
和 co_locals 的 值 。 因 为 co_argcount 和 co_nlocals 是 函数 Py_Func 编译 后 产生 的 
pvcodeobject 对 象 中 的 域 ， 它 们 的 值 只 可 能 在 编译 时 确定 。 从 co_argcount=2，co- 
nilocals =3 的 结果 我 们 已 经 可 以 做 一 个 大 胆 的 猜测 了 ， 那 就 是 ， 在 Python 实现 Py_Func 
时 ， 所 有 的 扩展 位 置 参数 实际 上 是 被 存储 在 了 一 个 pybistobject 对 象 中 ， 
4. 位 置 参数 + 扩展 键 参 数 


Pa 
lL 本 | 













| >>> def Py Func(la: by **keys); 
| 全 二 二名 
| >>> Py Func(l, 2, name="Python', author= "Suido") 
| (ealil function] : na=2, nk=2, r=-6 

| 【cal1 function] : cn_argcount=2, co nlocals=9 






从 co _argcount 和 eo_nlocals 的 值 可 以 看 到 ， 扩 展 键 参数 在 Python 内 部 同样 也 是 
作为 一 个 局 部 变量 来 被 对 特 的 。 


5. 位 置 参数 + 局 部 变量 
LOD NAME HO(bysEunc) 





ee 


全 
pp 


_NAK i >>> dof Fy Func(la, 


已 三 二 





| 


| >>> Py Func (1, 2) 


| {eall function] : ria=2, nk=f, ne2 
| [call function] : co argcount=2, co nlocalss=3 


这 里 co_nlocals=3 是 理所当然 的 ， 因为 Py_Func 内 确实 含有 一 个 局 部 变量 了 。 从 左 


” 边 的 指令 序列 可 以 看 到 ，Python 在 调用 函数 时 ， 没 有 任何 涉及 到 局 部 变量 的 指令 。 这 无 疑 也 


是 正确 的 ， 因 为 我 们 在 图 11-5 中 已 经 看 到 了 ， 局 部 变量 是 属于 男 一 个 PycodeObject 的 。 


11.4.2 ”位 置 参 数 的 传递 


前 面 我 们 已 经 分 析 了 无 参 函 数 的 调用 过 程 , 在 这 一 节 中 ， 我 们 要 在 此 基础 上 更 进一步 ， 
看 一 看 带 参 函数 的 调用 过 程 。 在 带 参 函 数 的 调用 过 程 中 ， 基本 的 调用 流程 是 与 无 参 函 数 一 
样 的 ， 而 重要 的 不 同 之 处 就 在 于 ， 在 调用 带 参 函数 时 ，Python 碟 拟 机 必须 传递 参数 。 在 这 
一 节 中 ,我们 将 重点 剖析 位 置 参 数 的 传递 过 程 ， 对 于 键 参数 的 传递 会 在 后 面 的 小 节 进 行 痢 
析 。 


我 们 通过 对 func_lipy 的 剖析 来 研究 位 置 参 数 的 传递 ， 同 时 ， 这 个 文件 也 用 于 下 一 小 
节 淹 析 函 数 执行 时 如 何 对 函数 参数 进行 访问 。 
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编译 后 分 别 与 func_1.py 和 函数 £ 对 应 的 pycodeobject 中 的 常量 表 和 符号 表 如 图 
11-10 和 图 11-11 所 示 : 


- <toNnsts> 
+ <codeQbject> 
<int value="5" /> 
<internstr index="5" length="6" value="Robert" /> 
<NoneObiect /> 


</consts> 
- <names> 
<strRefindex="4". value="f" /> 
<strRef index="3" value="age" /> 
</names> 
<varNames /> 


图 11-10 func_1.py 的 PyC 
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- <oolmsts> 
<NorisObject /> 
<int value="5" /> 
<INntemStr index="0" length="1" valus=" [> 
<Str length="2" value=",* /> 
<iNternStr Index="1" langth="1" vealue="]" /> 
/torsts> 
<names /> 
- <varNames> 
<internStr index="2" length="4" valus="hname" /> 
<iNntemstr mdex="3" length="3" value="age' /> 
</vVarhlames> 


图 11-11 func_1.py 中 函数 1 的 PyCodeObject 
与 上 一 节 我 们 剖析 过 的 func_0.py 不 同 , 在 编 详 后 的 func _0.py 中 ,在 CALE_ FUNCTION 
之 前 ， 只 有 一 个 LOAD.NAME 0， 而 在 编译 后 的 func_l:py 中 ,在 caLL_FUNCTION 之 前 ， 
却 有 三 条 LonaD 指令 。 这 三 条 LOnD 指令 执行 完成 后 运行 时 栈 的 情况 如 图 11-12 所 示 ; 








图 11-12 CALL_FUNCTION 机 入 折 称 条 的 二 行 避 


可 以 看 到 ， 函 数 需 要 的 参数 已 经 被 压 入 到 了 运行 时 栈 中 了 。 接 下 来 执行 CaLLL_FUNCTION 
指令 ， 其 指令 参数 为 2。 





前 面 我 们 提 到 ，caLL_FuNcTION 的 指令 参数 oparg 中 ， 低 字 节 包含 了 位 置 参 数 的 个 
数 ， 所 谓 位 置 参 数 ， 就 是 如 £ 中 所 见 的 一 般 的 参数 。 而 oparg 中 高 字 节 包含 了 另 一 种 参数 
的 个 数 。 因 此 na=2, nk=0, 所 以 n=2。 从 栈 顶 指针 pp_stack 开始 ， 回 退 2 后 ， PyObject 
*Eunc 正确 地 指向 了 运行 时 栈 中 存储 的 那个 代表 着 主 的 PyFunctionobject 对 象 。 然 后 程 
序 流程 进入 fast_function( 见 代码 清单 11-5)。 


代码 清单 11-5 
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代码 清单 11-5 的 [1] 处 创建 了 函数 三 对 应 的 PyFrameobject 对 象 ， 在 这 个 过 程 中 ， 函 
数 三 对 应 的 PyFunctionObject 对 象 中 保存 的 pycodeobject 对 象 被 传递 给 了 新 创建 的 
pyFrameObject 对 象 。 随 后 ， 在 代码 清单 11-5 的 [2] 处 ，Python 虚拟 机 将 参数 逐个 找 贝 到 
新 建 的 pvgrameobject 对 象 的 E_localsplus 中 。 在 分 析 Python 虚拟 机 的 框架 时 ， 我 们 
就 已 经 知道 , 这 个 E_localsplus 所 指向 的 内 存 块 中 也 包含 着 Python 虚拟 机 所 使 用 的 那个 
运行 时 栈 , 那么 参数 所 占用 的 内 存 空间 和 运行 时 栈 所 占用 的 内 存 空间 的 关系 是 怎样 的 呢 ? 
答案 就 在 PyFrame_New 中 ( 见 代码 清单 1-6)。 


代码 清单 11-6 
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前 面 提 到 ， 在 函数 对 应 的 PyCodeObiject 对 象 的 co_nlocals 域 中 ， 包 含 着 函数 的 参 
数 的 个 数 ， 因 为 函数 参数 也 是 局 部 符号 的 一 种 。 所 以 从 £_localsplus 开始 ， 长度 为 代码 
清单 11-6 的 [2] 处 计算 出 的 sxtras 的 那 段 内 存 中 , 一 定 有 供 函 数 参数 使 用 的 内 存 。 换 一 种 
说 法 ， 函 数 的 参数 存放 在 运行 时 栈 之 前 的 那 片 内 存 中 。 

从 pyFrame_New 创建 PyYFraimneobject 对 象 的 过 程 中 可 以 看 到 ,在 f_localsplus 中 ， 
用 于 存储 函数 参数 的 空间 和 运行 时 栈 的 空间 逻辑 上 是 分 离 的 ， 并 不 是 共享 同一 片 内 存 ， 虽 
然 这 两 个 空间 在 连续 内 存 之 内 ， 但 它们 界限 分 明 ， 井 水 不 犯 河 水 。 

在 处 理 完 参数 后 ， 还 没有 进入 pyEval_gvalFrameEx， 所 以 这 时 运行 时 栈 还 是 室 的 。 
但 是 函数 的 参数 已 经 乖乖 地 就 位 于 f_localsplus 中 了 。 这 时 新 建 pyFrameObject 对 象 
中 ff_localsplus 如 图 11-13 所 示 : 





Someepee, ss 


“TD 


图 11-13 进入 PyEval_EvalFrameEx 之 前 新 建 PyFrameObject 对 象 的 内 存 布局 


11.4.3 位置 参数 的 访问 
当 参 数 拨 贝 的 动作 完成 后 ， 就 会 进入 新 的 pyBval_svalrrameBx， 开 始 真正 的 函数 





FAST， 又 是 一 对 LoaD 和 savEe 指令 ， 函 数 在 被 调用 的 过 程 中 ， 对 函数 参数 的 读 写 动作 正 
是 通过 这 两 条 指令 完成 的 。 
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原来 , LOAD_PAST 和 | STORE_FAST 7 f_localplus 这 片 内 存 为 操作 目标 
的 。 指 令 “0 LORD_FAST 4” 的 结果 是 将 所 localsplus[i] 中 的 对 象 压 入 到 运行 时 栈 中 ， 
而 从 图 11-13 中 我 们 已 经 看 到 , f_localiplusfi] 中 存放 的 正 是 age 在 完成 了 加 法 操作 后 ， 
又 通过 STORE_FAST 将 结果 放 入 到 f_localplus[1] 中 , 这 样 就 实现 了 对 变量 age 的 更 新 。 
以 后 在 print 中 访问 参数 age 时 ， 得 到 的 结果 已 经 是 10 了 。 

现在 ， 关 于 Python 中 的 函数 的 位 置 参 数 ， 我 们 对 它 在 函数 调用 过 程 中 是 如 何 传递 ， 
在 函数 执行 过 程 中 又 是 如 何 被 访问 ， 都 已 经 真相 大 白 了 。 在 调用 函数 时 ，Python 将 函数 参 
数值 从 左 至 右 压 入 到 运行 时 栈 中 ， 在 fast_function 中 ， 又 将 这 些 参数 依次 拷贝 到 新 建 
的 与 函数 对 应 的 pyrrameobject 对 象 的 E_localsplus 中 。 最 终 的 效果 就 是 ， Python 虚 
拟 机 将 函数 调用 时 传 入 的 参数 ， 从 左 至 右 地 依次 存放 在 新 建 PyFrameObject 对 象 的 
f_localsplus 中 。 

在 访问 函数 参数 时 , Python 虚拟 机 没有 按照 通常 访问 符号 的 做 法 ， 去 查 什么 名 字 空 co 
而 是 直接 通过 一 个 索引 ( 偏 移 位 置 ) 来 访问 E_localsplus 中 存储 的 符号 对 应 的 值 
这 种 通过 索引 〔 偏 移 位 置 ) 进行 访问 的 方法 也 正 是 “位 置 参数 ” 名 称 的 由 来 。 

图 11-14 中 详细 地 展示 了 函数 在 调用 及 执行 的 过 程 中 ， 参 数 如 何在 pyFrameobject 
中 辐 转 腾挪 。 
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函数 调用 范 数 技 行 2 函数 执行 

LOAD FAST STORE FAST 
(中 feun_1py 对 应 之 PyFrameObject 一 > flocalsplus PyFrameObject 其 他 部 分 
po RNR 呈 flocatsplus 中 的 extra 部 分 


(2 ) 画 数 f 对 应 之 PyFrameObject i oo 
图 11-14 函数 调用 过 程 中 参数 的 变化 序列 


11.4.4 ”位置 参数 的 默认 值 


现在 我 们 已 经 知道 位 置 参 数 在 函数 调用 的 过 程 中 是 如 何 传递 和 访问 的 。 在 Python 中 ， 

如 同 C++ 一 样 ， 允许 函数 的 参数 有 默认 值 假如 函数 E 的 参数 value 的 默认 值 是 1， 在 我 

们 调用 函数 时 ， 如 果 传 递 了 value 参数， 那么 三 调 用 时 value 的 值 为 我 们 传递 的 参数 值 ; 

如 果 没 有 传递 value 值 ， 那 么 在 调用 时 walue 的 值 为 默认 值 1。 那 么 带 有 默认 参数 值 的 位 

置 湖 数 ， 其 实现 的 机 制 与 一 般 的 位 置 参数 有 何不 同 昵 ?这 就 是 本 节 要 考察 的 内 容 。 我们 通 

过 func_2.py 来 深入 考察 Python 中 函数 的 默认 值 机 制 : 
[func 2 .py] 
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回 过 头 看 一 下 func_0.py 和 func_l.py， 我 们 发 现 ， 无 论 函数 是 否 有 参数 ， 其 def 语句 
编译 后 的 结果 都 是 一 样 的 ， 其 差别 是 在 进行 函数 调用 的 时 候 产 生 的 ， 无 参 函 数 在 调用 前 仅 
仅 将 pyFunctcionObject 对 象 压 入 运行 时 栈 ， 而 带 参 函数 还 需 将 参数 也 压 入 运行 时 栈 。 


然而 在 func_2.py 的 编译 结果 中 , 我 们 发 现 Gef 语句 编译 的 结果 就 显 出 了 很 大 的 不 同 ， 
多 出 了 两 条 LOoap_CONST 指令 ， 看 上 去 ， 这 两 条 语句 应 该 与 参数 的 默认 值 有 关系 。 为 了 验 
证 我 们 的 想法 , 来 看 一 看 图 11-15 所 示 的 func_2.py 对 应 的 Pycodeobject 对 象 中 的 常量 表 
和 符号 表 。 
<int a 1"/> 
<int value="2" /> 


+ <codeObiect> 
<strRef index="1" value="b" /> 





图 11-15 。2.py 对 应 的 常量 表 和 符号 表 
再 参照 函数 让 的 aet 语句 编译 后 的 指令 序列 ， 可 以 看 到 ， 开 始 的 两 条 LoAD_coNsT 指 
邻 确实 将 参数 的 默认 值 压 入 了 运行 时 栈 ， 那 么 接 下 来 ， 在 MAKE_FUNCTION 中 ， 会 发 生 什 
么 动作 呢 ， 注 意 ， 这 时 MAKE_FUNCTION 的 参数 为 2， 而 以 前 所 见 的 MAKE_FUNCTION 的 参 
数 都 是 0， 无论 函数 是 否 为 带 参 函数 。 玄 机 在 这 里 出 现 了 〔 见 代码 清单 11-7)。 
代码 清单 11-7 
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代码 清单 11-7 的 []] 处 创建 pyFuncticnobjeet 对 象 的 过 程 我 们 已 经 很 熟悉 了 。 在 创 
建 PyFunctionObject 对 和 象 之 后 ，MAKE_FUNCTION 的 指令 代码 会 处 理 函 数 参数 的 执 认 值 。 
MAKE_FUNCTION 的 指令 参数 表示 当前 在 运行 时 栈 中 一 共有 多 少 个 函数 参数 的 默认 值 ， 在 
func_2.py 中 , 这 个 值 是 2。MAKE_FUNCTION 的 指令 代码 会 将 指令 参数 指定 的 所 有 函数 参数 
的 默认 值 从 运行 时 栈 中 弹出 ， 全 塞 到 一 个 pymupleobject 对 象 中 。 最 后 ， 通 过 调用 
PyFunction_SetDefaults 将 该 pyTupleobject 对 象 设置 为 pyFunctionobject .func_ 
defaults 的 值 。 如 此 一 来 ， 函数 参数 的 默认 值 也 成 了 pyFunctionobject 对 象 的 一 部 分 ， 
函数 和 其 参数 的 默认 值 最 终 被 Python 虚拟 机 捆绑 在 了 一 起 , 它 和 pycoaeobject global 
名 字 空间 一 样 ， 又 被 塞 进 了 pyFunctionobject 这 个 大 包容。 





11.4.4.1 函数 ff 的 第 一 次 调用 


在 执行 CALL_FUNCTION， 并 进入 fast_function 之 后 ， Python 的 执行 路 径 和 func_ 
0.py，func_1.py 就 不 再 相同 了 。 由 于 在 执行 WAKE_EUNCTION 指令 时 ，Python 虚拟 机 已 经 
将 函数 的 默认 参数 值 设置 为 函数 对 应 pyFunctionobject 对 象 的 func_aefaults 域 了 ， 
所 以 在 代码 清单 11-8 的 四 处 ， 判 断 将 失败 ， 于 是 Python 虚拟 机 将 会 进入 byBval_ 
EvalCodeEx， 在 进入 PyEval_EvalCodeEx 之 前 , 将 ByFunctioncbject 对 和 象 中 的 参数 默 
认 值 信息 提取 了 出 来 ， 并 作为 参数 ， 传 递 给 了 pyEval_EvalcodeEx。 


代码 清单 11-8 





>% ff 


ee 





238 二 第 11 章 Python 虚拟 机 中 的 函数 机 制 





bygval_BvalCodeEx 是 一 个 非常 重要 的 函数 , 在 以 后 分 析 扩 展位 置 参数 和 扩展 键 参数 
时 , 我 们 还 会 遇 到 它 。 从 fast_function 中 对 zybval_pgwvalcodeEx 的 调用 形式 可 以 看 到 ， 
Python 虚拟 机 在 调用 Pysval_pvalcodeEx 时 ， 同 时 也 将 位 置 参数 的 信息 和 键 参数 的 信息 
传递 了 进去 。 至 于 这 些 信 息 有 什么 用 ， 我 们 这 里 先 按 下 不 表 ， 以 后 会 详细 考察 。 图 11-16 
展示 了 func_2.py 执行 时 ， 第 一 次 调用 EE 时，Python 虚拟 机 所 维护 的 na、nk、n 等 关键 变 


量 的 值 。 










Sop :+ ne=0, nk=0, n=0 
{csll function] : co argecount=2, 56_ nlocels=2 
图 11-16 在 func_2.py 中 第 一 次 调用 f 时 的 函数 参数 信息 

回 到 我 们 对 函数 参数 默认 值 的 剖析 中 ， 在 下 面 列 出 的 PyEval_EvalcodeEx 代码 中 ， 
其 函数 参数 中 ，argcount 其 实 就 是 na 的 值 ， 而 kwcount 就 是 nk 的 值 ， 当 然 这 里 都 是 0。 
PyEval_EvalCodeBx 同样 也 在 代码 清单 11-8 的 [ 口 处 创建 了 新 的 syErameobjsct 对 象 , 然 
后 ， 参 数 的 默认 值 被 直接 写 入 到 新 的 PyFrameObject 对 象 的 二 _Iocalspluas 中 ( 见 代码 
清单 11-9)。 
代码 清单 11-9 


re 人 全 时 
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在 对 默认 参数 的 讨论 中 ， 我 们 将 位 置 参数 继续 细 分 为 两 类 : 一 般 位 置 参数 和 默认 位 置 
参数。 默认 位 置 参数 蚌 指 指定 了 默认 值 的 位 置 参 数 ， 而 没有 指定 默认 值 的 则 称 为 一 般 位 置 
参数 。 

在 代码 清单 11-9 的 [2] 处 ，Python 虚拟 机 完成 了 是 否 需 要 设置 默认 参数 全 i 
调用 函数 传递 的 位 置 参数 的 个 数 小 于 函数 编译 后 的 Pycodsobject _ 对象 中 ， co_argcount 
指定 的 参数 个 数 时 ， 说 明 Python 虚拟 机 需要 为 函数 设 定 默 认 参 数 。 

代码 清单 11-9 的 [] 处 的 判断 是 为 了 保证 一 般 位 置 参数 在 函数 被 调用 时 ， 由 调用 者 传 
递 了 参数 值 ， 这 里 的 m 就 是 我 们 前 面 所 说 的 一 般 位 车 参数 的 个 数 。 

代码 清单 11-9 的 [多 处 确定 要 从 哪个 默认 位 置 参数 开始 设 定 参数 的 默认 值 。 考 虑 函数 
def gta，b，c=1，d=2)， 如 果 调 用 函数 时 是 如 下 的 调用 形式 g(3，3，3)， 逆 么 就 不 能 








TT 
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为 参数 = 设置 默认 参数 了 ， 只 能 对 a 设置 默认 参数 ， 由 于 n 代表 了 函数 调用 时 传递 的 位 置 
参数 的 个 数 ， 而 m 表 示 一 般 位 置 参 数 的 个 数 ， 那么 n-m 就 指示 了 在 函数 调用 时 传递 的 参数 
中 ， 有 多 少 个 参数 不 是 用 于 一 般 位 置 参 数 的 ， 那 这 些 参数 自然 是 用 于 默认 位 置 参 数 的 。 计 
是 这 些 默 认 位 置 参数 不 需要 再 设置 团 认 值 了 ， 


当 最 终 需 要 设置 默认 值 的 参数 个 数 确定 之 后 ， Python 虚拟 机 会 在 代码 清单 11-9 的 [5] 
处 从 pyFrameobject 对 和 象 的 func_detaults 中 将 这 些 参数 取出 ， 并 通过 sgmrocaL 将 其 
放 入 PyFrameobject 对 象 的 f_localsplus 所 管理 的 内 存 抉 中 。 在 [ 引 处 , i 指示 了 需要 在 
flocalsplus 中 设置 默认 值 的 位 置 ， 这 个 i 的 值 有 一 点 值得 注意 ， 它 从 第 一 个 需要 设置 
默认 值 的 默认 位 置 参数 的 位 置 开始 , 依次 向 后 ， 而 这 个 位 置 之 前 的 参数 都 不 用 设置 默认 值 ， 
这 和 Python 中 设置 函数 参数 默认 值 的 规则 是 一 致 的 ， 即 ; 函数 参数 的 默认 值 从 函数 参数 
列表 的 最 右 端 开始 ， 必 须 连续 设置 。 


11.4.4.2 函数 ff 的 第 二 次 调用 


在 对 三 进 行 第 二 次 调用 时 ， 我 们 重新 设置 了 参数 b 的 值 ， 以 此 来 观察 当 我 们 在 调用 函 
数 时 ， 为 默认 位 置 参数 传递 了 一 个 参数 值 后 ， Python 虚拟 机 是 如 何 用 我 们 传递 的 值 来 替换 
默认 值 的 。 第 二 次 调用 函数 三 时 ， 调用 形式 中 的 参数 形式 和 键 参 数 的 形式 是 一 致 的 。 所 以 
在 CALL_FUNCTION 之 前 ，Python 虚拟 机 将 PyStringobject 对 象 “p” 和 pyrntobject 
对 象 3 依次 压 入 了 运行 时 栈 。 同 时 ，cALL_FUNCTION 的 指令 参数 变 为 了 256， 我 们 现在 已 
经 知道 ， 这 意味 着 na=0， 而 nk=1， 人 11-17 中 非常 清晰 地 展示 了 出 来 。 


>>> def Py Onci(a= 半 ， 
Ptss 












>>> By Func(b=3) 
[call function} : na=0, nk=1, n=2 
[call function] : co argcount=2, co nlovcalsa=2 


图 11-17 在 func_2.py 中 第 二 次 调用 f 时 的 函数 参数 信息 


在 fast_function 中 ， Python 虚拟 机 同样 不 会 选择 快速 通道 ， 而 是 会 进入 PyEval __ 
EvalcCodeExs 之 前 我 们 已 经 说 过 ，PyEval_BwalcodeEx 的 参数 中 ，argcount 其 实 就 是 
na 的 值 ; 而 kwcount 其 实 就 是 nk 的 值 。 我 们 在 图 11-18 中 更 细致 地 展现 了 当 Python 虚拟 
机 进入 PyEval_EvalCodeEx 时 各 个 参数 的 意义 。 
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11-18 ”PyEval_EvalCodeEx 调用 时 各 参数 的 意义 
现在 只 剩 最 后 一 个 关键 问题 了 ， 在 pyEval_EvalcodeEx 中 ，3 是 如 何 取 代 b 的 原始 
默认 值 2 的 呢 。 当 然 ， 这 一 切 都 和 kws 这 家 伙 密 切 相 关 ( 见 代码 清单 11-10)。 


代码 清单 11-10 
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这 里 算法 的 基本 思想 是 : 在 编译 时 ,Python 会 将 函数 的 aef 语句 中 出 现 的 参数 的 名 称 
都 记录 在 变量 名 表 (co_varnames) 中。 由 于 我 们 已 经 看 到 ,在 Etb=3) 的 指令 序列 中 ,Python 
虚拟 机 在 执行 cALL_FUNCTION 指令 前 会 将 键 参数 的 名 字 压 入 运行 时 栈 ， 那么 我 们 在 
PyBval_Evalcodegx 中 就 能 利用 运行 时 栈 中 保存 的 键 参数 的 名 字 在 Python 编译 时 得 到 的 
co_varnames 中 进行 查找 。 最 妙 的 是 ， 在 co_varnames 中 记录 的 变量 名 的 顺序 与 在 函数 
的 Gef 语句 中 出 现 的 参数 的 顺序 是 一 致 的 。 而 且 我 们 知道 ， 在 pyErameObject 对 象 的 
f_localsplus 所 维护 的 内 存 中 ， 用 于 存储 函数 参数 的 内 存 也 是 按照 aef 语句 中 出 现 的 参 
数 的 顺序 排列 的 。 所 以 在 co_varnames 中 搜索 到 键 参数 名 字 后 ， 我 们 可 以 根据 所 得 到 的 
序号 信息 直接 设置 E_localsplus 中 的 内 存 ， 这 就 为 默认 位 置 参 数 设 笑 了 函数 调用 者 希望 
的 值 。 下 面 我 们 结合 函数 E 的 第 二 次 调用 来 看 看 这 个 过 程 。 

在 代码 清单 11-10 的 [1] 处 的 for 循环 中 ,为 0 时 ， 就 有 keyword 为 bystringobiecat 
对 象 “b"， 而 value 为 PyIntobject 对 象 3。 在 代码 清单 11-10 的 [四 处 的 for 循环 中 ,会 
在 函数 王 对 应 的 pycodeobject 对 象 中 的 co_varnames 中 查找 “b”， 图 11-19 显示 了 函数 
上 编译 后 的 eycoaeobjeet 对 象 中 的 变量 名 表 (co_varnames) 。 


- <varNarnes> 
<intarnStr mdex="O" length="1" value="a' /> 





<InternStr index="1" length="1" value="b" 和 


图 11-19 函数 f 的 变量 名 表 


显然 ， 在 序号 1 处 ， 这 个 查找 动作 将 成 功 。 而 这 时 j 的 值 正 是 这 个 序号 1。 在 图 11-17 
中 我 们 看 到 ，fF 对 应 的 PyCodeObject 对 象 中 的 co_argcount 为 2， 所 以 判断 j >= co-> 
co_argcount 将 不 成 立 ， 最 后 终于 来 到 我 们 著 若 寻找 的 地 方 ,在 代码 清单 11-10 的 [向 处 的 
else 分 支 中 , 通过 sprLocaL, 将 新 建 的 eyFxrameobject 对 象 中 的 二 1ocalspltus 中 参数 
b 对 应 的 位 置 设置 为 3。 

代码 清单 11-10 的 [5 处 的 sor 循环 是 我 们 在 11.4.1 节 中 就 看 到 过 的 那个 为 需要 设置 默 
认 值 的 默认 位 置 参 数 设 警 炭 认 值 的 foz 循环 ,值得 注意 的 是 , 这 个 for 循环 中 设置 函数 参 


Python 并 玛 前 六 一 一 深度 浆 甘 动态 膏 窜 杖 心 蔽 并 


11.4 ”函数 参数 的 实现 ”到 243 


数 的 默认 值 的 动作 只 有 在 条 件 GETLOcAL (m+i) == NULL 成 立 的 情况 下 才能 发 生 ， 对 于 
f localsplus{1] 这 个 位 置 所 代表 的 参数 b 已 经 被 设置 为 3 了， 所 以 不 会 再 次 设置 为 b 原 
始 的 默认 参数 2。 


在 代码 清单 11-10 的 [3] 处 ， 我 们 看 到 一 个 奇特 的 判断 ， 在 什么 情况 下 会 出 现 了 > co-> 
co_argcount 呢 ? 仔细 想 一 想 就 会 发 现 ， 只 有 在 co_varnames 中 搜索 键 参数 的 名 字 失 败 
时 才 会 出 现 这 种 情况 。 这 种 情况 意味 出 现 了 一 个 键 参数 ， 这 个 键 参数 的 名 字 没 有 在 函数 的 
def 语句 中 出 现 ， 显 然 ， 答 案 已 经 呼之欲出 了 ， 它 一 定 就 是 扩展 键 参数 。， 下 一 节 我 们 就 将 
进入 对 扩展 键 参数 的 剖析 。 


11.4.5 ”扩展 位 置 参数 和 扩展 键 参数 


在 11.4.1 节 的 例 3 和 例 4 中 , 我 们 看 到 了 使 用 扩展 位 置 参数 和 扩展 键 参数 时 指示 参数 
个 数 的 变量 的 值 。 在 那里 ， 我 们 发 现 ， 在 函数 内 部 没有 使 用 局 部 变量 时 ，co_nlocals 和 
co_argcount 的 值 已 经 不 再 相同 了 。 从 它们 的 差异 我 们 猜测 ， 扩 展位 置 参 数 *1ist 和 扩展 
键 参数 **kev， 实 际 是 作为 一 个 局 部 变量 来 实现 的 。 同 时 ， 我 们 还 猜测 ， 在 Python 内 部 ， 
*list 是 由 pyTupleobject 实现 的 , 而 **key 是 由 PyDictobject 对 象 实现 的 在 本 节 中 ， 
将 深入 地 剖析 Python 是 如 何 实现 扩展 位 置 参数 和 扩展 键 参数 的 。 


图 11-20 展示 了 我 们 考察 的 例子 。 现 在 我 们 对 图 11-20 中 的 函数 调用 能 编译 出 什么 样 
的 指令 序列 应 该 很 熟悉 了 ， 这 里 就 不 再 列 出 ， 仅 仅 考察 与 参数 相关 的 重要 变量 的 值 。 










>>> Ey Func(-1, a 2 B=3, b=4) 
[eall function] : nae=3, nik=2, r=7 
[cecall function) : co _argcount=1, co nlocalsa™3 


图 11-20” 带 扩展 位 置 参数 和 扩展 键 参 数 的 例子 


Python 虑 拟 机 的 执行 路 答 最 终 将 进入 PyEval_EvalCcodeEx， 这 个 函数 我 们 之 前 已 经 
看 过 了 几 次 ， 对 其 中 一 些 变量 已 经 有 些 邹 悉 了 。 下 面 我 们 先 来 看 看 对 扩展 位 置 参 数 的 处 理 
( 见 代 码 清单 11-11)。 
代码 清单 11-11 
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当 Python 在 编译 一 个 函数 时 ， 如 果 在 其 形式 参数 中 发 现 了 *1lst 这 样 的 扩展 位 置 参数 
的 参数 形式 , 那么 Python 会 在 所 编译 得 到 的 Bycodeobject 对 象 的 co_f1ags 中 添加 一 个 
标识 符号 ;co_VaRARGS， 表 示 该 函数 在 被 调用 时 需要 处 理 扩展 位 置 参数 。 同 样 ， 对 于 函数 
的 形式 参数 中 包含 **key 这 样 的 参数 的 函数 , Python 将 在 co_f1ags 中 添加 CO_VARKEYWORDS 
标识 。 所 以 对 于 含有 扩展 位 置 参数 和 扩展 键 参数 的 函数 ， 代 码 清单 11-11 的 [1] 处 的 判断 都 
将 成 立 。 

前 面 我 们 已 经 知道 ， 在 pygval_Bvalcodegx 中 ，argcount 其 实 就 是 na 的 值 ， 一旦 
argcount>co->co_argcount 成 立 ， 就 意味 着 函数 调用 时 传递 了 扩展 位 置 参 数 。 在 代码 清 
单 11-11 的 [2] 处 设置 了 正规 的 位 置 参数 后 ， 就 会 进入 代码 清单 11-11 的 [3] 处 对 扩展 位 署 参 


Python 源码 曾 六 一 一 深 民 次 黄 动 太 语言 烦心 项 检 








11.4 ”函数 参数 的 实现 ”到 245 


和 我 们 之 前 的 猜想 相符 ，Python 虚拟 机 首先 在 代码 清单 11-11 的 {和 处 创建 了 一 个 
pymupleobject 对 象 ,然后 在 代码 清单 11-11 的 [5] 处 将 所 有 的 扩展 位 置 参数 一 股 脑 寨 进 这 个 
pyTrupleobject。 然 后 , 还 有 最 关键 的 一 步 , 在 [4] 处 , 这 个 py'rupleobject 对 象 也 被 Python 
虚拟 机 通过 sgmbocaL 放 到 了 PyFrameobject 对 象 的 E_localsplus 中 , 且 放 置 的 位 置 是 
co->co_argcount。 没 错 ， 正 是 正规 的 位 置 参 数列 表 后 的 第 一 个 位 置 。 

了 解 了 扩展 位 置 参 数 的 传递 机 制 之 后 ， 对 于 扩展 键 参数 的 传递 机 制 ， 实 际 上 走 的 是 呼 
之 欲 出 了 。 上 照 猫 画 虎 ， 我 们 其 实 已 经 可 以 自己 写 出 一 个 扩展 键 参 数 的 传递 机 制 了 。 不过， 
我 们 还 是 来 看 看 Python 虚拟 机 是 如 何 做 的 〈 见 代码 清单 11-12)。 
代码 清单 11-12 
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其 实 扩 ER 要 天 半生 上 一 节 在 分 析 函 数 参 数 
的 默认 值 机 制 时 我 们 已 经 看 过 了 键 参数 的 传递 机 制 ， 在 那里 我 们 知道 Python 虚拟 机 会 在 
函数 的 pycodeobject 对 象 的 变量 名 对 象 表 (co_varnamesl 中 查找 键 参数 的 名 字 ， 只 有 在 
查找 失败 时 ， 才 能 确定 该 键 参 数 应 该 属于 一 个 扩展 键 参数 。 


和 扩展 位 惫 参数 的 实现 一 样 ， 在 代码 清单 11-12 的 四 处 ， 如 我 们 所 猜想 的 ， Python 虚 
拟 机 创建 了 一 个 PyDictobject 对 象 ， 并 且 将 该 对 象 放 入 到 了 Bygrama6BjscE 对 象 的 
f_localsplus 中 。 值 得 注意 的 是 ， 在 代码 清单 11-12 的 加 处， 这 个 判断 及 其 后 的 操作 保 
证 ， 当 函数 拥有 扩展 位 置 参 数 时 ， 扩 展 键 参数 的 pybictobject 对 象 在 f_localsplus 中 
的 位 置 一 定 在 扩展 位 置 参数 的 pyrupleobject 对 象 之 后 的 下 一 个 位 置 。 

然后 ， 对 调用 参数 传递 进来 的 每 一 个 键 参数 ，Python 虚拟 机 都 会 判断 它 是 一 般 的 键 参 
数 , 还 是 扩展 键 参 数 , 如 果 是 扩展 键 参数 , 就 在 代码 清单 11-12 的 [3] 处 将 其 插入 到 pypict- 
abject 对 象 中 。 

当 图 11-20 中 所 示 的 函数 调用 的 所 有 参数 都 传递 完成 之 后 ，pyFrameobject 对 象 中 的 
f_localsplus 的 情形 如 图 11-21 所 示 : 


slackitc flbcalsplus 
图 11-21 扩展 位 置 参 数 和 扩展 键 参数 的 最 终归 宿 





当然 ， Python 虚拟 机 如 何 访问 这 些 扩展 位 置 参数 和 扩展 键 参数 呢 。 聪 明 的 你 一 定 能 够 
目 己 想到 了 @，。 


11.5 ”函数 中 局 部 变量 的 访问 
在 完成 了 对 函数 参数 的 详细 剖析 之 后 ， 最 后 ， 我 们 来 看 一 看 ， 在 Python 中 ， 函 数 的 


局 部 变量 是 如 何 实现 的 。 前 面 提 到 过 ， 函 数 参数 实际 上 也 是 一 种 局 部 的 变量 ， 所 以 其 实 局 
部 变量 的 实现 机 制 与 两 数 参数 的 实现 机 制 是 完全 一 致 的 , 这 个 “一 致 "究竟 意味 着 什么 呢 ? 
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马上 我 们 就 能 看 到 。 

按照 我 们 对 Python 的 了 解 ， 当 访问 局 部 变量 时 ， 似 乎 应 该 先 到 1ocal 名 字 空 间 中 去 
搜索 变量 名 ， 但 是 很 不 幸 的 是 ， 在 调用 函数 期 间 ， Python 虚拟 机 通过 pyFrame_New 创建 
新 的 pyFrameobject 对 象 时 ， 那 个 至 关 重 要 的 1ocal 名 字 空 间 并 没有 被 创建 ; 








在 前 面 对 函 数 调用 时 的 giobal 名 字 空 间 的 剖析 中 ， 我 们 已 经 看 到 ， 当 Python 虚拟 机 
执行 ***py 时 ，f_locals 和 ff_globals 指向 的 是 同一 个 pyDictobject， 尽管 有 些 寒 磷 ， 
但 毕竟 还 有 一 个 Bypictobject 对 象 可 以 使 用 。 现 在 倒 好 ，#_locails 变 成 了 光 梓 司令 一 
个 ， 那 些 重要 的 局 部 符号 究竟 会 存放 在 哪里 呢 ? 别 急 ， 我 们 先 来 看 一 个 使 用 局 部 变量 的 函 
数 。 

[func_ 3.B7: 





一 目 了 然 ， 原 来 局 部 变量 也 是 利用 oap_FaAsr 和 smORE_FAST 来 操作 的 ， 更 进一步 ， 
局 部 变量 的 容 身 之 处 和 函数 参数 一 样 ， 都 是 在 f_localsplus 中 运行 时 栈 前 面 的 那 段 内 存 
空间 中 。 回 过 头 参 考 一 下 图 11-21， 我 们 对 局 部 变量 c 的 藏身 之 处 已 经 了 然 于 胸 。 
为 什么 在 函数 的 实现 中 没有 使 用 local 名 字 空 间 呢 ? 这 是 因为 函数 中 的 局 部 变量 总 
是 固定 不 变 的 ， 所 以 在 编译 时 就 能 确定 局 部 变量 使 用 的 内 存 空间 的 位 置 ， 也 能 确定 访问 局 
部 变量 的 字 节 码 指令 应 该 如 何 访问 内 存 。 有 了 这 些 信息 ， Python 就 能 使 用 静态 的 方法 来 实 
现 局 部 变量 ， 而 不 需要 借助 于 动态 地 查找 pyDictobject 对 象 的 技术 ， 毕 竞 ， 函 数 调用 实 
在 是 太 普遍 了 ， 静 态 的 方法 可 以 极 大 地 提高 函数 执行 的 效率 。 
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11.6 艇 套 了 水 数 、 闭 包 与 decorator 


在 前 儿 章 我 们 已 经 提 到 ， 在 Python 中 ， 有 一 个 核心 的 概念 叫 名 字 空 间 ， 一 段 代码 执 
行 的 结果 不 光 取 决 于 代码 中 的 符号 ， 更 多 地 是 取决 于 代码 中 符号 的 语义 ， 而 这 个 运行 时 的 
语义 正 是 由 名 字 空 间 决 定 的 。 名 字 空 间 是 在 运行 时 由 Python 虚拟 机 动态 维护 的 ， 但 是 有 
时 ,我 们 希望 能 将 名 字 空 间 静 态 化 。 换 句 话 说 ， 我 们 希望 有 的 代码 不 受 名 字 空 间 变 换 的 影 
响 ， 始 终 保 持 一 致 的 行为 和 结果 。 这 样 做 有 什么 意义 昵 ? 

来 考虑 一 个 具体 的 例子 ,假如 我 们 想 要 定 一 个 基准 值 ， 然 后 将 许多 值 与 这 个 值 进行 比 
较 ， 最 简单 的 方法 就 是 写 一 个 函数 : 













0 0 
我 们 将 10 作为 基准 值 ， 然 后 将 5 和 20， 分别 与 10 进行 比较 ， 这 样 写 当 然 没 问 题 。 但 
是 如 果 仔细 观察 一 下 就 会 发 现 ， 我们 不 得 不 每 次 都 将 基准 值 作为 参数 传 入 函数 ， 这 一 点 相 
当 不 痰 。Python 提供 了 一 种 方法 ， 可 以 使 我 们 在 编写 代码 时 ， 只 设置 一 次 基准 值 。 这 种 方 
法 利用 了 翌 套 函数 。 


ki 









2 和 





在 compare2.py 中 ， 我 们 只 设置 了 一 次 基准 值 。 此 后 ， 在 每 次 进行 比较 操作 时 ,尽管 调 

用 的 实际 函数 real_compare 的 local 名 宇 空间 中 没有 base， 而 global 名 字 空 间 中 有 

“base = 1”， 但 是 函数 调用 的 结果 显示 ，real_compare 以 一 种 神奇 的 方式 得 知 了 base 
应 该 为 10 而 不 是 1。 


也 就 是 说 ， 在 real_compare 这 个 函数 作为 返回 值 被 传递 给 compare_with_10 的 时 
息 ， 有 一 个 名 字 空 间 已 经 与 real_compare 紧 紧 地 绑 定 在 一 起 了 ， 在 执行 real_compare 
的 代码 时 ， 这 个 名 字 空 间 又 被 恢复 了 ， 这 就 是 一 种 将 名 字 空 间 静 态 化 的 方法 。 这 个 名 字 空 间 
与 函数 捆绑 后 的 结果 被 称 为 一 个 闭 包 (closure)。 在 前 面 我 们 已 经 看 到 了 , pyFunctionobject 
是 Python 虚拟 机 专门 为 字 节 码 指令 准备 的 大 包 被，slcbal 名 字 空 间 、 上 默认 参数 都 能 在 
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PyFunctionObject 中 与 字 节 码 指令 捆绑 在 一 起 , 同样 的 , EyFunctionobject 就 是 Python 
中 闭 包 的 具体 表现 了 。 

如 果 你 还 记得 的 话 ， 关 于 闭 包 ， 实 际 上 在 前 面 介绍 名 字 空 间 与 作用 域 时 ， 就 已 经 遇 到 
了 。 在 那里 ,我 们 提 到 ，Python 语言 的 设计 遵循 了 一 个 核心 的 作用 域 规则 一 一 最 内 霸 套 作 
用 域 规则 ，compare2.py 的 结果 正 是 这 套 规 则 产生 的 效果 。 我 们 同时 也 提 到 了 ， 闭 包 是 这 
个 规则 的 一 种 实现 方式 ， 规 则 是 形 而 上 的 “ 道 ”% 而 闭 包 是 形 而 下 的 “器 ”% 现在 ， 我 们 马 
上 就 可 以 看 到 ， 不 用 闭 包 ， 我 们 同样 可 以 实现 compare2.py 想 要 实现 的 效果 。 





为 了 证 明 这 段 代 码 中 闭 包 确实 不 存在 了 , 我 们 在 最 后 改变 了 比较 的 基准 值 Cbase)， 如 
果 使 用 闭 包 ， 最 后 一 行 输出 代码 是 会 抛 出 异常 的 。 


这 个 结果 相当 令 人 惊讶 ， 利 用 函数 的 默认 参数 ， 我 们 实现 了 闭 包 的 效果 。 这 个 现象 很 
自然 地 会 引起 我 们 的 猜测 ， 闭 包 和 默认 参数 的 实现 方式 莫非 是 相似 的 ? 这 个 猜测 也 合 情 合 
理 ， 毕 竟 ， 如 果 默 认 参 数 的 实现 方式 可 以 起 作用 ，Python 应 该 没有 必要 去 实现 另 一 套 完全 
不 同 的 机 制 ， 徒 增 复 杂 度 。 猜 来 猜 去 ， 闭 包 到 底 是 如 何 实现 的 呢 ? 别 急 ， 到 后 面 自然 会 水 
落石 出 ， 现 在 我 们 先 放 一 放 ， 先 来 看 看 pycodeobjecE、pPyPunctionobjeck 和 ByPrame- 
object 这 些 我 们 已 经 很 熟悉 的 对 象 中 ， 与 闭 包 相关 的 属性 。 


11.6.1 ”实现 闭 包 的 基石 


从 compare2.py 中 可 以 发 现 ， 闭 包 的 创建 通常 是 利用 嵌 套 函数 来 完成 的 。 在 
PyCodeObject 中 , 与 展 套 函数 相关 的 属性 是 co_ceilvars 和 co_freevars。 两 者 的 具体 
含义 如 下 ; 


> co_cellvars: 通常 是 一 个 cuplie， 保 存 民 套 的 作用 域 中 使 用 的 变量 名 集合 ; 
> co_freevars; 通常 也 是 一 个 cuple， 保 存 使 用 了 的 外 层 作 用 域 中 的 变量 名 集合 。 
人 
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很 显然 , closure.py 会 编译 出 3 个 Pycoaeobject， 其 中 有 两 个 , 一 个 与 函数 get_func 
对 应 ， 一 个 与 函数 inner_func 对 应 ， 那 么 ， 与 get_func 对 应 的 Bycodeobject 对 象 中 
的 co_celivars 就 应 该 包含 字符 串 “value” 因为 其 众 套 作用 域 (inner_func 的 作用 域 ) 
中 使 用 了 这 个 符号 ; 同 理 ， 与 函数 inner_func 对 应 的 bycode6bject 对 象 中 的 
co_freevars 中 应 该 也 有 字符 串 “value"”。 图 11-22 和 图 11-23 分 别 显示 了 get_func 和 
inner_func 的 co_cellvars 和 co_freevars。 


- <conNnsts> 
<NoneOblject /> 
<internstr index="0" length="5" valua="inner’ /> 
+ <codeObject> 
</consts> 
<names /> 
~ <varNarnes> 
<strhef index="2" value='inmer_func' /> 
</varNames> 
<freeVars /> 
- <cellVars> 
<strRef index="1" value="value” /> 
</cellVars> 


图 11-22 ”get_func 对 应 的 PyCodeObject 


<iNtemStr index=" 1' length="S" value="value" /> 
</freevars> 
<CellVars /> 
图 11-23 inner_func 对 应 的 PyCodeObject 
在 BYErameObject 对 象 中 ， 也 有 一 个 属性 与 闭 包 的 实现 相关 ， 这 个 属性 就 是 
f_ localsplus, 这 样 一 说 ， 是 不 是 有 些 隐隐 约 约 地 猜 到 了 呢 ? 其 实在 FyFrame_New 中 ， 
aoe es as 





extras 让 f_liocalsplus 指向 的 那 片 内 存 的 大 小 , 这 里 已 经 清 清楚 楚 地 说 明了 , 咽 ， 
兄弟 , 这 片 内 存 是 属于 四 个 家 伙 的 : 运行 时 栈 、 局 部 变量 、cel1l 对 象 ( 对 应 co_cellvars) 
和 free 对 象 (对 应 co_freevars)。 到 这 里 £_localsplus 的 所 有 秘密 才 完 全 暴露 了 出 来 ， 
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图 11-24 显示 了 £E_1localsplus 的 布局 。 
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11-24 fjocalsplus 的 完整 内 存 布局 
在 PyFunctionobject 中 ,还 有 一 个 与 闭 包 实现 相关 的 属性 ,当然 ,毕竟 pyFunction- 
object 是 个 大 包 嘛 。 这 个 属性 ， 在 下 一 节 ， 我 们 就 可 以 看 到 它 的 真 身 了 。 


11.6.2 ” 闭 包 的 实现 


在 介绍 了 实现 闭 包 的 一 些 基石 之 后 , 我 们 可 以 开始 追踪 闭 包 的 具体 实现 过 程 了 , 当然 ， 
首先 需要 了 解 一 下 closure.py 编译 后 的 字 节 码 指令 序列 。 


A -人次 | 
a 
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乖 乖 ， 好 多 不 认识 的 字 节 码 指令 。 不 要 紧 ， 顺 着 函数 调用 的 流程 ， 我 们 都 能 一 一 手 到 
擒 来 。 在 Python 虚拟 机 执行 “42 caLL_FUNCTION 0” 时 ， 就 已 经 开始 为 closure 的 实现 
悄悄 添砖加瓦 了 。 


11.6.2.1 ”创建 closure 


前 面 已 经 看 到 ,在 Python 虚拟 机 执行 caLL_FUNCTION 指令 时 ,会 进入 fast_function 
函数 。 而 在 fast_function 函数 中 ， 由 于 当前 的 pycoaeobjaet 为 get_func 对 应 之 
pycodeobject， 其 中 的 co_flags 为 3(Go_OpriMTZ2ED1CO_LNEWLOCEUS)， 所 以 最 终 不 符 
合 进入 快速 通道 的 条 件 ， 而 会 进入 pyEval_EvalCodeExs 

图 11-22 中 已 经 显示 ， 当 前 的 这 个 pycodeobject 的 co_cellvars 中 是 有 东西 的 ， 在 
pyEval_EvalcodeEx 中 ，Python 虚拟 机 会 如 同 处 理 默认 参数 一 样 ， 将 co_cellvars 中 的 
东西 拷 贝 到 新 创建 的 pyFrameobject 的 f_iocalspius 中 ( 见 代码 清单 11-13)。 


代码 清单 11-13 






内 套 函 数 有 时 候 会 很 复杂 ， 比 如 内 层 稀 套 函数 引用 的 不 是 外 层 符 套 函 数 的 局 部 变量 ， 
而 是 外 层 堪 套 函数 的 一 个 拥有 默认 值 的 参数 ， 这 些 复杂 的 情况 我 们 就 不 再 深入 了 ， 所 以 这 
里 有 些 代码 被 删 碱 了 ， 但 是 原理 都 是 差不多 的 ， 有 兴趣 的 读者 可 参阅 Python 的 源码 。 
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在 代码 清单 11-13 中 的 [中 处 ，Python 虚拟 机 获得 了 被 内 层 嵌 套 函 数 引 用 的 符号 名 , 在 
我 们 的 例子 中 ， 就 是 获得 了 一 个 字符 串 “value”。 这 里 的 founa 需要 解释 一 下 ，founa 
是 被 内 层 凡 套 函数 引用 的 符号 是 否 已 经 与 某 个 值 绑 定 的 标识 ， 或 者 说 与 某 个 对 象 建立 了 约 
束 关系 。 只 有 在 内 层 嵌 套 函 数 引用 的 是 外 层 函 数 的 一 个 有 默认 值 的 参数 时 ， 这 个 标识 才 可 
能 为 1， 对 于 我 们 的 例子 ，Eicuna 一 定 为 0。 所 以 ，Python 虚拟 机 接 下 来 会 创建 一 个 cell 
对 象 一 一 pycellobject。 


Te 1417 








Sw | a | Yi 
> I ; 


这 个 对 象 非常 简单 ， 仅 仅 维护 了 一 个 cb_ref， 指 向 一 个 Bythong 中 的 对 象 ， 我 们 来 
看 看 创建 pycellobject 对 象 的 代码 。 


在 我 们 的 例子 中 , 创建 的 pycellobject 对 和 象 维护 的 ob_ref 指向 了 NULL, 也 就 是 说 ， 
现在 还 不 知道 到 底 是 个 什么 东西 ， 那 什么 时 候 才 能 知道 呢 ? 其 实在 closure.py 中 已 经 很 明 
显 了 ， 就 是 在 value = “inner* 这 个 赋值 语句 执行 的 时 候 。 随 后 ， 这 个 cel1 对 象 被 拷贝 
到 了 新 创建 的 pvFrameobject 对 象 的 f_localspius 中 。 值 得 注意 的 是 ， 这 个 对 象 被 拷 
页 到 的 位 置 是 co->co_nlocals + i， 说 明 在 f_1iocalsplus 中 ，cell 对 象 的 位 置 是 在 局 
部 变量 之 后 的 ， 这 完全 符合 图 11-24 所 示 的 内 存 布局 。 


在 处 理 co_cellvars 时 , 有 一 个 奇怪 的 地 方 , 在 我 们 创建 pycellobject 对 象 的 过 程 
中 ， 代 码 清单 11-13 的 [处 获得 的 cellname 完全 被 忽略 了 。 实 际 上 ， 这 和 前 面 分 析 到 的 
Python 函数 机 制 将 对 局 部 变量 符号 的 访问 方式 从 对 dict 的 查找 变 为 对 list 的 索引 是 一 个 
道理 。 在 get_tune 函数 执行 的 过 程 中 ， 对 value 这 个 cell 变量 的 访问 将 通过 基于 索引 
访问 f_localsplus 完成 ， 因 而 完全 不 需要 再 知道 cellname 了 。 这 个 cellname 实际 上 
是 在 处 理 内 层 撕 套 函 数 引用 外 层 函 数 的 默认 参数 时 产生 的 。 


在 处 理 了 cell 对 象 之 后 ，Python 虚拟 机 将 进入 PyEval_EvalFrameEx， 从 而 正式 开 
始 对 函数 get_func 的 调用 过 程 。 
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首先 执行 的 “0 Loap_coNsT 1” 指令 将 bystrindobject 对 象 “inner” 压 入 到 运行 
时 栈 ， 然 后 Python 上 诬 拟 机 开始 执行 一 条 对 我 们 而 言 全 新 的 字 节 码 指 令 一 一 STORE_DEREF。 






PT 


从 运行 时 栈 弹 出 的 是 pystringobject 对 象 “inner”% 而 从 EF_localsplus 中 取得 的 
是 Bycellobject 对 象 ， 看 样子 ， 是 要 设 署 pycellobject 对 象 中 的 ob_ref 啊 ， 没 错 ， 
Pycel1l_Set 就 是 干 这 个 勾当 的 。 


TU 1 > 二 ns 量 
站 是 > Va Us mW 
HOGT TI ~ I% Hy 

| 







图 11-25 设置 cell 对 象 之 后 的 get_func 函数 的 PyFrameObject 对 象 
现在 在 gec_EFunc 的 环境 中 我 们 知道 了 value 符 号 对 应 着 一 个 Pystringobject 对 象 ， 
但 是 closure 的 作用 是 将 这 个 约束 进行 冻结 , 使 得 在 嵌 套 函数 inner_func 被 调用 时 还 能 使 
用 这 个 约束 。 这 一 次 ， 又 要 请 pyFunccionobject 这 个 邮递 员 出 马 了 。 在 执行 closure.py 
中 接 下 来 的 “aef inner_func()” 表 达 式 时 ，Python 虚拟 机 就 会 将 (value，“inner”) 
这 个 约束 塞 到 PyFunctionobject 中 。 


} I 硒 
NAN 
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“6 LOAD_CLOSURE 0” 将 刚刚 放置 好 的 Pycell0bject 对 象 到 出 ， 并 压 入 运行 时 栈 ， 
接着 的 “9 BUILD_TUPLE 1” 指 令 将 Pycellobject 对 象 打包 进 一 个 tupie 中 ， 显 然 ， 这 
个 tuple 中 可 以 放置 多 个 Pycell0bject, 不 过 我 们 的 例子 中 只 有 一 个 PyCel19Bbject。 

随后 ，Python 虚拟 机 通过 “12 LOAD_coNsT 2” 指 令 将 inner_func 对 应 的 pycode- 
object 对 象 也 压 入 到 运行 时 栈 中 ， 接 着 以 一 个 “15 MaKE_CHOSURE 0” 指 邻 完成 约束 与 
Pycodeobject 的 绑 定 。 


EY 






表达 式 “aef inner_func()” 所 对 应 的 最 后 一 条 “18 smoRE_FAST 0” 指 令 将 新 创 
建 的 ByFunetionobject 对 象 放 竹 到 了 E_localsplius 中 ， 这样 E_iocalsplus 又 发 生 了 
变化 ， 如 图 11-26 所 示 。 





图 11-26 设置 function 对 象 之 后 的 get_func 函数 的 PyFrameObject 对 象 


在 get_func 的 最 后 ， 这 个 新 建 的 pyFunctionobject 对 象 作为 返回 值 返 回 给 了 上 一 
个 栈 帧 ， 并 被 压 入 到 该 栈 帧 的 运行 时 栈 中 。 


11.6.2.2 ”使 用 closure 


closure 是 在 get_func 中 被 创建 的 ， 而 对 closure 的 使 用 ， 则 是 在 innsr_Fuac 中 。 在 执 
行 “show_value() ”对 应 的 CALL_FUNCTION 指令 时 ， 和 inner_func 对 应 的 pyeodeobjeect 
中 的 co_flags 里 包含 了 co_NEsTED， 所 以 在 fast_function 中 不 能 通过 快速 通道 的 验 
证 ， 从 而 只 能 进入 EyBval_BvalCodaeEx。 
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在 图 11-23 中 ， 我 们 已 经 看 到 ，inner_func 对 应 的 pycodeobject 中 co freevars 
里 有 引用 的 外 层 作 用 域 中 的 符号 名 ,在 pysval_EvalcodeEx 中 ,就 会 对 这 个 co_freevars 
进行 处 理 。 







其 中 的 closure 变量 是 作为 最 后 一 个 函数 参数 传递 进来 的 ， 我 们 可 以 看 看 在 fast_ 
function 中 到 底 传 进来 了 什 么 。 


原来 传递 进来 的 就 是 在 pyFunctionobject 对 象 中 与 pycodeobject 对 象 绑 定 的 装 满 
了 Bycellobject 对 象 的 suple， 所 以 在 Pygval_bvalcodeEx 中 ， 进 行 的 动作 就 是 将 这 
个 pycellobject 对 象 一 个 一 个 放 入 到 f_1localsplus 中 相应 的 位 置 。 在 处 理 完 closure 
之 后 ，inner_func 对 应 的 pyFrameobject 中 的 E_iocalsplus 如 图 11-27 所 示 。 
ob ret 





图 11-27 设置 cell 对 象 之 后 的 inner_func 函数 的 PyFrameObject 对 象 
这 里 的 动作 与 调用 get_func 是 一 致 的 ， 所 以 我 们 可 以 猜测 ， 在 inner_func 调用 的 
过 程 中 ， 当 引 用 外 层 作 用 域 的 符号 时 ， 一 定 是 到 f_localsplus 中 的 free 变量 区 域 中 获 
得 符号 对 应 的 值 。 这 正 是 inner_func 函数 中 “print value” 表 达 式 对 应 的 第 一 条 字 节 


Aion 并 妈 前 匠 一 一 次 居 闪 鞭 动 大 语言 巷 心 开 开 
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码 指令 “0 LoaD_DpEREF 0” 的 意义 。 






到 现在 ,我 们 已 经 剖析 完了 closure 从 创建 ,传递 到 使 用 的 全 过 程 ,再 回顾 一 下 图 11-25、 
图 11-26 和 图 11-27，Python 中 的 closure 定然 能 够 了 然 于 胸 了 。 


11.6.3 Decorator 


在 closure 技术 的 基础 上 ，Python 实现 了 decorator。 考 虑 下 面 的 例子 : 







实际 上 我 们 可 以 完全 不 用 decorator， 而 实现 相同 的 效果 ， 只 需要 对 fanc 进行 小 小 的 
修改 : 


decoratorl.py 的 行为 也 非常 好 理解 了 。 这 个 现 音 提示 我 们 ，decorator 似乎 就 是 “func= 
. should_say (func) ”的 一 种 包装 形式 ， 为 了 验证 这 一 点 ， 我 们 来 看 看 两 者 编译 之 后 的 结 
果 : 


= ET 





258 所 第 11 章 Python 虚拟 机 中 的 函数 机 制 





在 decoratorl.py 中 ，“15 STORE_NAME 1” 和 “21 LOAD_NAME 1” 这 两 条 字 节 码 指令 
互 为 道 运算 ， 可 以 删除 ， 如 此 一 来 ，decoratorl:py 编译 后 的 字 节 码 指令 序列 和 decoratorpy 
编译 后 的 字 节 码 指令 序列 除了 “Loap_NaME 0” 的 位 置 不 同 ， 其 余 的 都 完全 相同 。 

很 显然 ， 在 Python 中 ，decorator 仅仅 是 decoratorl.py 中 “func=should_say (func)” 
的 一 种 包装 方式 ， 而 理解 decorator 的 关键 ， 就 在 于 理解 Python 中 的 closure 了 。 
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本 章 将 研究 类 机 制 在 Python 中 的 实现 ,从 Python 2.2 开始 , Python 中 有 了 两 套 类 机 制 ， 
一 套 称 为 classic class， 而 另 一 套 称 为 new style class。 虽 然 从 使 用 上 来 看 ， 两 者 并 没有 太 
大 的 差别 ， 但 是 在 实现 上 ， 两 者 有 很 大 的 区 别 。 随 着 Python 的 不 断 演进 ，classic class 最 
终 将 在 Python 中 消失 ， 所 以 在 本 章 中 ， 仅 仅 考察 Python 中 new style class 机 制 的 实现 。 


12.1 Python 中 的 对 象 模 型 


在 Python 2.2 之 前 ，Python 中 存在 着 一 个 巨大 的 裂缝 ， 就 是 Python 的 内 轩 type， 比 
如 int，gdict， 与 Python 程序 员 定 义 的 class 并 不 是 完全 等 同 的 。 举 一 个 例子 ， 用 户 定 
义 的 class a 可 以 被 继承 ,作为 男 一 个 class 3 的 基 类 ; 但 不 垃 的 是 ,Python 的 内 置 type 
却 不 能 被 继承 ， 也 就 是 说 你 没有 办 法 以 类 似 于 Ci++、Java 中 的 继承 方式 那样 ， 很 自然 地 创 
建 一 个 继承 自 dict 的 类 MyDict。 Python 的 开发 者 们 在 Python 2.2 申花 费 了 巨大 的 精力 境 
补 了 内 置 type 和 用 户 自 定义 class 之 间 的 鸿沟 ， 使 这 两 者 能 够 在 概念 上 实现 了 完全 一 致 。 
这 种 统一 后 的 类 型 机 制 ， 称 之 为 new style class 机 制 。 

在 面向 对 象 的 理论 中 , 有 两 个 核心 的 概念 : 类 和 对 象 。Python 中 也 实现 了 这 两 个 概念 。 
但 不 幸 的 是 ， 在 Python 中 所 有 的 东西 都 是 对 象 ， 所 以 类 也 是 一 种 对 象 。 对 于 尝试 用 文字 
来 描述 这 种 微妙 区 别 的 我 来 说 ， 这 真是 一 场 灾 难 。 当 我 在 类 、 类 对 象 、 对 象 之 间 不 断 切 换 
时 ， 用 不 了 多 久 ， 不 论 是 我 ， 还 是 读者 ， 都 会 发 现 自己 的 脑袋 像 桨 糊 一 样 了 。 所 以 ， 我 们 
需要 定义 一 些 术 请 ， 党 试用 另 一 套 结构 对 Python 中 的 类 机 制 建 模 。 


在 Python 2.2 之 前 ，Python 中 实际 上 存在 三 类 对 象 : 


应 thon 温 本 前 亲 一 一 深度 座 血 动态 滞 膏 天 心 共 厌 








260 到 第 12 章 Python 虚拟 机 中 的 类 机 制 


> type 对 象 : 表示 Python 内 置 的 类 型 ; 
> class 对 象 ， 表示 Python 程序 员 定 义 的 类 型 ; 
> instarce 对 象 ( 实 例 对 象 ); 表示 由 class 对 象 创建 的 实例 。 

而 在 Python 2.2 之后，type 和 class 已 经 统一 ， 所 以 我 们 用 “class 对 象 ” 来 统一 地 
表示 Python 2.2 之 前 的 “type 对 象 ” 和 “class 对 象 "。 并 且 我 们 采用 一 种 表达 形式 ， 对 
于 class 对 象 &， 我 们 采用 <class A> 来 表示 名 为 A 的 class 对 象 ， 而 对 于 instance 
对 象 ， 则 采用 <instance a> 来 表示 名 为 a 的 instance 对 象 。 

同时 ， 我 们 将 采用 术语 type 来 表示 “类 型 ”( 注 意 ， 不 是 类 型 对 象 ) 这 个 概念 。 比 如 
对 于 “实例 对 象 a 的 类 型 是 x& ”这样 的 说 法 ， 我 们 就 可 用 “实例 对 象 a 的 type 是 A” 来 表 
达 。 当 然 ， 术 语 class 在 某 种 情况 下 也 表示 “类 型 ”， 比 如 我 们 会 采用 “定义 了 一 个 名 为 
A 的 class” 或 “classA” 这 样 的 说 法 。 但 是 当 我 们 使 用 “class 对 象 "” 时 ， 就 与 “class?” 
有 完全 不 同 的 意义 了 。“class” 表 示 “ 类 ”或 “类 型 ”这 个 概念 ， 而 “class 对 象 ”表示 
这 个 概念 在 Python 中 的 实现 。 

在 class 对 象 与 class 对 象 之 间 ，class 对 象 与 instance 对 象 之 间 ， 存 在 着 多 种 联 
系 。 我 们 将 这 些 对 象 和 它们 之 间 的 联系 称 为 类 型 系统 或 对 象 模型 。 在 本 书 的 开始 ， 我 们 简 
单 地 介绍 了 一 下 Python 对 象 模型 ， 主 要 关注 了 Python 对 象 在 C 一 级 的 组 织 。 而 本 章 将 深 
入 细致 地 剖析 Python 对 象 模型 的 方方面面 。 


12.1.1 对 象 间 的 关系 


在 Python 的 三 种 对 象 之 间 ， 存 在 着 两 种 关系 : 
is-kind-of 关系 :这 种 关系 对 应 于 面向 对 象 中 的 基 类 与 子 类 之 间 的 关系 ; 
is-instance-of 关系 : 这 种 关系 对 应 于 面向 对 象 中 类 与 实例 之 间 的 关系 。 
考 虚 下 面 的 Python 代码 ; 


Wo 






有 面向 对 象 基础 的 读者 一 定 马 上 能 够 指出 ，cbject 和 z 之 间 存 在 is-kind-of 关系 ， 则 A 是 
object 的 子 类 ; 而 a 和 ?之 间 存 在 is-instance-of 关系 ， 即 a 是 a 的 一 个 实例 。 再 稍微 进行 
一 下 推理 , 显然 , a 和 object 之 间 也 存在 js-instance-of 关系 , 即 a 也 是 object 的 一 个 实例 。 
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Python 提供 了 一 些 方法 可 以 用 来 探测 这 些 关系 ， 通过 对 象 的 _class__ 属性 或 Python 
内 置 的 type 方法 可 以 探测 一 个 对 象 和 哪个 对 象 存在 is-instance-of 关系 ; 而 通过 对 象 的 
bases 属性 则 可 探测 一 个 对 象 和 哪个 对 象 存在 is-kind-of 关系 。 此 外 ，Python 还 提供 
两 个 内 置 方法 issubclass 和 isinstanceof 来 判断 两 个 对 象 间 是 否 存 在 我 们 期 望 的 关系 ， 
图 12-1 显示 了 利用 这 些 方法 探测 和 验证 关系 的 例子 : 


* main .A'> 


:bases _ 


raceback (most recent call last): 
File "<pyshell#12>"”, line 1, in <module> 
a. bases. - 

AttributeBrror: ‘A abject has no'attribute ' bases __" 
>>> isinstancet{a, A) 

rue 
>>> issubclass (A, object) 

Due 





图 12-1 ”探测 对 象 间 的 关系 


从 a._bases_ 的 结果 看 出 , 并 不 是 所 有 的 对 象 都 拥有 is-kind-of 关系 。 这 也 很 合理 ， 
因为 is-kind-of 关系 对 应 的 是 基 类 和 子 类 的 关系 ， 显 然 只 能 在 class 对 象 与 class 对 象 之 
间 存 在 ， 而 a 是 一 个 instance 对 象 ， 显 然 不 能 拥有 这 种 关系 。 


12-2 则 更 加 形象 和 清晰 地 展示 了 这 三 个 对 象 之 间 的 关系 ; 





----b is-instance-of 一 -一 is-kind-of 


图 12-2 对 象 关系 图 
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为 什么 要 将 两 种 对 象 分 为 三 列 呢 ? 因为 最 左边 的 <type ‘type'> 这 个 对 象 非常 特殊 ， 
马上 我 们 就 会 看 到 ， 


12.1.2 <type ‘type’> 和 <type ‘object’> 


将 obiect 入 放 在 一 起 是 因为 它们 有 一 个 共同 的 特点 ， 即 它们 的 type 都 是 <type 
‘type'>。<type'type'> 属 于 Python 中 的 一 种 特殊 的 class 对 象 ， 这 种 特殊 的 class 对 
和 象 能 够 成 为 其 他 class 对 象 的 type。 这 种 特殊 的 class 对 象 我 们 称 之 为 metaclass 对 象 ， 
在 本 章 中 ， 只 涉及 <type 'type' > 这 一 个 metaclass 对 象 ， 而 一 般 的 class 对 象 ， 仍 以 

“class 对 象 ” 称 之 。 在 Python 中 ，metaclass 对 象 的 意义 非常 重大 ， 在 后 面 的 剖析 中 我 
们 可 以 看 到 ， 创 建 一 个 class 对 象 的 关键 之 处 就 在 于 metaclass 对 象 。 


Python 中 还 有 一 个 特殊 的 class 对 象 一 一 <type ‘object'>， 在 Python 中 ， 任 何 一 





个 class 都 必须 直接 或 间接 继承 自 object， 这 个 object 可 以 视 为 万 物 之 母 。 

在 <type “type“> 和 <cype ‘object'> 之 间 有 非常 微妙 的 关系 ， 通过 图 12-3 可 以 看 
到 这 种 微妙 的 关系 , 同时 , 图 12-3 还 探测 了 其 他 一 些 type 对 象 与 <type 'type'> 和 <type 
:object'> 之 间 的 关系 。 








(<type 'object’>,) 
>>> dict. class _ 
<type “TYPE "> 

>>> dict- bases __ 
(‘<trype ‘'obiject’>,) 





图 12-3 ”探测 对 象 之 间 的 关系 


图 12-3 右 侧 图 中 ， 中 间 一 列 的 class 对 象 有 一 种 类 似 于 “ 波 粒 二 相 性 ”的 特殊 性 质 ， 
我 们 说 Python 中 的 对 象 分 为 class 对 象 和 instance 对 象 ， 但 中 间 这 一 列 的 对 象 既是 
class 对 象 ， 又 是 instance 对 象 。 说 它 是 class 对 象 ， 因为 它 可 以 通过 实例 化 的 动作 创 
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建新 的 instance 对 象 ， 说 它 是 instance 对 象 ， 因 为 它 确实 是 mecaclass 对 银 经 过 实例 

化 得 到 的 ， 图 12.3 也 显示 出 class 对 象 和 metaclass 对 象 之 间 存 在 is-instance-of 关系 。 

这 种 二 相 性 对 于 理解 后 面 的 内 容 有 着 非常 重要 的 意义 。 
现在 我 们 可 以 总 结 一 下 : 

> 在 Python 中 ， 任 何 一 个 对 象 都 有 一 个 type， 可 以 通过 对 象 的 _class_ 局 性 获得 。 
任何 一 个 instance 对 象 的 type 都 是 一 个 class 对 象 ,而 任何 一 个 class 对 象 的 type 
都 是 metaclass 对 象 。 在 大 多 数 情 况 下 这 个 metaclass 都 基 <type ‘type'>， 而 在 
Python 内 部 ， 它 实际 上 对 应 的 就 是 PyType_Type。 

> ”在 Python 中， 任何 一 个 ciass 对 象 都 直接 或 间接 与 <type ‘object'> 对 象 之 间 存 在 
is-kind-of 关系 ， 包 插 <type ‘type'>。 在 Python 内 部 ，<cype 'object'> 对 应 的 是 
PyBaseObjecat_Typese 


12.2 从 type 对 象 到 class 对 象 


在 Python 中 ， 实 现 “ 类 ”这 个 概念 的 是 class 对 象 ， 这 个 对 象 听 上 去 神秘 ， 实 际 上 ， 
我 们 之 前 对 这 个 对 象 早已 司空 见 惯 了 。 在 Python 内 部 ,class 对 象 其 实 就 是 一 个 Pyobject 
结构 体 。 那 么 我 们 之 前 看 到 过 的 ByInt_Type，PyList_Type， 这 些 都 是 class 对 和 象 了 ? 
是 ， 也 不 是 。 呢 ， 至 少 目前 还 不 是 。 自 前 我 们 对 诸如 pyInit_Type，PyList_Type 的 认识 还 
停留 在 Python 2.2 之 前 ， 前 面 说 了 ， 这 时 的 pyInc_Type 应 该 叫做 type 对 象 ， 跟 Python 2.2 
之 后 的 class 对 象 还 存在 着 差别 。 前 面 提 到 在 Python 2.2 之 前 不 能 继承 内 置 类 型 ， 那 好 ， 
我 们 来 尝试 一 下 : 












从 内 置 的 int 类 型 继承 得 到 一 个 新 的 整数 类 型 ， 这 种 类 型 的 整数 在 进行 加 法 操作 时 ， 

会 在 正常 加 法 结果 的 基础 上 再 加 上 10。 现在 用 我 们 的 大 脑 模拟 一 下 Python 虚拟 机 ， 当 a+ 

b 发 生 时 ， 会 调用 Myrnt._aad_， 在 这 里 ， 调 用 了 inr._ada_。 问 题 从 这 里 现 身 了 ， 

Python 中 的 int 对 应 着 整数 对 象 的 类 型 对 象 ， 即 PyInt_Type， 其 中 倒是 有 一 个 nb_ada 

(int_aaa) 可 以 完成 加 法 操作 ,但 是 ，Python 虚拟 机 该 怎么 从 int .a6 得 知 要 调用 的 

是 pwyTnt_mype.cp_as_nunmber.nb_ada 呢 ? 这 就 是 为 什么 Python 2.2 之 前 的 内 置 类 型 不 
能 被 继承 的 原因 。 因 为 没有 在 type 中 寻找 某 个 属性 的 机 制 。 
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这 里 先 以 <type ‘int'>《 也 就 是 pyInt_mype) 为 例 ， 在 图 12-4 中 先 给 出 Python 
中 class 对 象 的 一 个 粗略 的 图 示 ， 从 中 可 以 看 到 Python 2.2 之 后 是 如 何 解决 这 个 属性 寻找 
机 制 的 ， 在 此 后 的 剖析 中 ， 我 们 的 工作 就 是 不 断 将 这 个 粗略 的 图 示 完 善 。 





PyInt Type 
图 12-4 粗略 的 <type 'int> 示 意图 


当 Python 虚拟 机 需要 调用 int._ada_ 时 ， 它 可 以 到 符号 “intn” 对 应 的 class 对 象 





一 PyInt_Type 一 一 的 cp_dict 指向 的 aict 对 象 中 查找 符号 “_aaa_” 对 应 的 操作 ， 
并 调用 该 操作 ， 从 而 完成 对 int ._aaa ”的 调用 。 


图 12-4 仅仅 是 一 个 粗略 的 示意 图 ， 实 际 上 在 tp_aict 中 与 符号 “_aaa_>” 对 应 的 
对 象 虽然 与 nb_saad 有 关系 ， 但 并 不 是 直接 指向 nb_ada 的 , 我 们 说 可 以 调用 _aaa_ 对 应 
的 操作 , 那么 这 个 对 象 是 不 是 就 是 我 们 11 章 看 到 的 pyFunctionobject 对 象 呢 , 毕竟 ,“ 范 
数 调 用 ” 听 上 去 才 合 理 呀 。 但 实际 上 ， 在 Python 中 ， 不 仅 只 有 函数 可 以 被 调用 ， 一 切 对 
象 都 有 可 能 被 调用 。 

到 了 这 里 ， 需 要 特别 提出 一 个 Python 中 的 概念 ， 即 可 调用 性 (callable)， 只 要 一 个 对 
象 对 应 的 class 对 象 中 实现 了 “__call__” 操 作 (更 确切 地 说 ， 在 Python 内 部 的 
PyTypeObject 中 ，tp_call 不 为 室 ) 那么 这 个 对 象 就 是 一 个 可 调用 的 对 象 ， 换 名 话说 ， 
在 Python 中 ， 所 谓 “ 调 用 "， 就 是 执行 对 象 的 type 所 对 应 的 class 对 象 的 tp_cail 操作 。 
图 12-5 展示 了 一 个 可 调用 的 对 象 : 

>>> 去 155S 及 TODJSC 


def — CAT ‘(selfy: 
brint Hello python’ 












12-5 ”可 调用 对 象 示例 
实际 上 ， 熟 释 C++ 的 朋友 可 以 将 这 个 特性 看 作 是 C++ 中 通过 对 操作 符 () 的 重 载 实现 
Functor 的 技术 。 在 Python 内 部 ， 是 通过 一 个 名 为 pyobject_call 的 函数 对 instance 对 
象 a 进行 操作 ， 从 而 调用 a 中 的 _call _， 完 成 “可 调用 ”这 个 特性 的 。 
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图 12.6 中 展示 了 一 个 不 可 调用 的 例子 ， 从 这 里 可 以 看 到 ，Pyobject_call 对 于 任何 
对 象 都 会 按部就班 地 试图 完成 “调用 ”这 个 操作 ， 如 果 传 递 进 来 的 对 象 确实 是 可 调用 的 ， 
那么 调用 操作 自然 能 够 顺利 完成 ; 如 果 传 递 进来 的 对 象 本 身 并 不 是 可 调用 的 , 那么 很 显然， 
Python 将 会 抛 出 异常 : 








Traceback (most recent call last): 
File "<pyshell#10>'", line 1, in <module> 
££ 
File "<pyshell#9>", line 3, yn £ 
iT) 
“TypeError: 









'int’ object is not callabile 
12-6 不 可 调用 对 象 示例 

看 ， 一 个 整数 对 象 是 不 可 调用 的 。 有 趣 的 是 ， 一 个 对 象 是 否 可 调用 并 不 是 在 编译 期 能 
确定 的 , 必须 是 在 运行 时 才能 在 pyobject_CallFunctionObjargs 中 确定 ,所 以 在 图 12-6 
中 你 明知 道 a = i() 这 条 语句 一 定 失 败 ， 而 Python 却 成 功 编译 了 。 

在 目前 的 Python 官方 网 站 zororo.pythom.org 上 ， 我 们 还 能 下 载 到 类 机 制 革命 发 生前 后 
的 两 个 Python 发 行 版 本 ，Python 2.1.3 和 Python 2.2.3。 对 比 这 两 个 版 本 的 objecth 文件 ， 会 
发 现 pytypeobject 的 定义 有 很 多 不 同 ，tp_dict 在 Python 2.1.3 中 不 存在 ， 在 Python 2.2.3 
中 才 开 始 骨头 。 这 个 tp_aict 也 正 是 PyTypeobject 从 2.2 之 前 的 type 对象 向 2.2 之 后 的 
class 对 象 转变 的 关键 。 虽 然 有 了 tp_dict 这 个 域 ， 而 县 我 们 已 经 在 图 12-4 中 看 到 ， 
tp_dict 在 运行 时 会 指向 一 个 dict 对 象 。 这 个 Qict 对 象 必须 在 运行 时 动态 构建 。 

从 Python 2.2 开始 ，Python 在 启动 时 ,会 对 类 型 系统 (对象 模型 ) 进行 初始 化 的 动作 。 
这 个 初始 化 的 动作 会 动态 地 在 内 置 类 型 对 应 的 PyTypeobject 中 填充 一 些 重要 的 东西 ， 其 
中 当然 也 包括 填充 tp_aict， 从 而 完成 内 置 类 型 从 type 对 象 到 class 对 象 的 转变 。 这 个 
对 类 型 系统 进行 初始 化 的 动作 从 _Py_ReadyTypes 拉 开 序幕 。 


在 _Py_ReadyTypes 中 ， 会 调用 pyType_Ready 对 class 对 象 进行 初始 化 。 实 际 上 ， 
pyType_Ready 仅仅 是 属于 对 class 对 每 进行 初始 化 这 个 动作 的 一 部 分 ， 它 处 理 的 不 光 是 
Python 的 内 置 类 型 ， 还 会 处 理 用 户 定义 的 类 型 。 我 们 以 1ist 和 A 来 说 明 内 置 类 型 与 用 户 
自 定义 类 型 在 初始 化 上 的 区 别 。1ist 对 应 的 class 对 象 pyList_Type 在 Python 启动 后 已 
经 作为 全 局 对 象 存在 了 ， 和 需要 的 仅仅 是 完善 ; 而 A 对 应 的 class 对 象 则 并 不 存在 ， 需 要 申 
请 内 存 , 并 创建 ,初始 化 整个 动作 序列 。 所 以 对 于 1ist 来 说 , 初始 化 就 剩 下 PyType_Ready 
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了 ， 而 对 于 来 说 ，PyType_Ready 仅仅 是 很 小 的 一 部 分 。 

既然 之 前 提 到 <type ‘type'> 是 一 个 非常 特殊 的 class 对象， 那么 对 pyType_Ready 
的 考察 就 以 它 作为 参数 吧 。<type 'type'> 实 际 上 对 应 着 pyType_Type， 所 以 对 PyType_ 
Ready 的 剖析 就 从 PyType_Ready (&PyType_Type) 开始 。 


12.2.1 处 理 基 类 和 type 信息 


代码 清单 12-1 








首先 在 代码 清单 12-1 中 的 [也 处 ,Python 虚拟 机 会 尝试 获得 待 初始 化 的 type 的 基 类 ( 注 
意 ， 这 里 的 type 是 pyType_Ready 中 的 参数 名 ， 也 表示 其 对 应 的 ciass 对 和 象 )。 这 个 信息 
是 在 PyTypeobject.tp_base 中 指定 的 。 表 12-1 列 出 了 一 些 内 置 ciass 对 象 的 tp_base 
信息 : 
Pylnt_Type NULL 
PyBool_Type &PyInt_Type 

对 于 指定 了 tp_base 的 内 罩 class 对 象 ， 当 然 就 使 用 指定 的 基 类 ; 而 对 于 没有 指定 


表 12-1 内 置 class 对 象 的 基 类 信息 
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tp_base 的 内 置 class 对 象 ， Python 将 为 其 指定 一 个 默认 的 基 类 ; pyBaaeObiect_Typao 
前 面 说 了 ， 这 个 东西 就 是 那个 特殊 的 <type ‘object'>。 所 以 这 里 可 以 看 到 ，Python 所 有 
class 对 象 都 是 直接 或 间接 以 <cype “object'> 作 为 基 类 的 。 我 们 正在 考察 的 PyType_ 
Type 很 倒 睡 ， 它 没有 指定 基 类 ， 所 以 它 的 基 类 就 成 了 <type 'object'>。 

在 获得 了 基 类 后 ， 代 码 清单 12-1 的 [2] 处 会 判断 基 类 是 否 已 经 被 初始 化 了 ， 如 果 没 有 ， 
则 需要 先 对 基 类 进行 初始 化 。 可 以 看 到 ， 判 断 初始 化 是 否 完成 的 条 件 是 base->tp_aict 是 
否 为 NULL， 这 符合 之 前 对 初始 化 的 描述 ， 初 始 化 的 一 部 分 工作 就 是 对 tp_aict 进行 填充 。 

随后 在 代码 清单 12-1 的 [3] 处 ， 设 置 了 class 对 象 的 ob_type 信息 ， 实 际 上 这 个 
cb_type 信息 也 就 是 对 象 的 _class_ 将 返回 的 信息 。 更 进一步 地 说 , 这 里 设置 的 ob_type 
就 是 metaclass。 实 际 上 ,Python 虚拟 机 是 将 菇 类 的 metaclass 作为 了 子 类 的 metaclass。 
对 于 这 里 考察 的 pyType_Type 来 说 , 其 metaclass 下 是 <type ‘object'> 的 metaclass,， 
而 在 PyBaseObject_Type 的 定义 中 我 们 可 以 看 到 其 obp_type 被 设 竹 成 了 PyTyse_Type， 
所 以 嘛 …… 现 在 能 理解 图 12-3 的 结果 了 吧 @。 

既然 在 代码 清单 12-1 的 四 处 我 们 看 到 Python 虚拟 机 会 首先 尝试 初始 化 ByBase- 
Object_Type， 同 时 ，<type 'object'> 又 是 所 有 class 对 象 的 基 类 ， 那 么 我 们 转 而 分 析 
PyType_ReadGy (&PYBaseObject_Type) 吧 。 对 于 PyBaseObject_Type， 代 码 清 单 12-1 的 
[1J、[2]、[3] 处 的 动作 读者 可 以 自行 分 析 ， 其 实 结果 很 简单 ， 就 是 什么 动作 也 没有 发 生 。 


12.2.2 ”处 理 基 类 列表 


接 下 来 ，Python 虚拟 机 将 处 理 类 型 的 基 类 列表 ， 因 为 Python 支持 多 重 继承 ， 所 以 每 
一 个 Python 的 class 对 象 都 会 有 一 个 基 类 列表 。 


[EYE 
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对 于 我 们 现在 考察 的 pyBaseObject_Type 来 说 , 其 tp_bases 为 空 ， 而 其 base 也 为 
NULL, 所 以 它 的 基 类 列表 就 是 一 个 空 的 cuple 对 象 . 这 也 符合 在 图 12-1 中 显示 的 object . 
_ bases_ 的 结果 。 

而 对 于 PyType_Type 和 其 他 类 型 ， 比 如 pyInt_Type 来 说 ， 昌 然 tp_bases 为 室 ， 但 
是 base 不 为 NULL， 而 是 gPyBaseobject_mype， 所 以 它们 的 天 类 列表 不 为 空 ， 都 包含 一 
个 PyBaseobject_Type， 这 也 可 以 从 图 12-1 和 图 12-3 中 得 到 验证 。 


12.2.3 ”填充 tp_dict 


接 下 来 Python 虚拟 机 将 进入 激动 人 心 的 填充 tp_aict 的 阶段 ， 这 是 一 个 极其 繁杂 的 
过 程 。 





在 这 个 阶段 ， 完 成 了 将 〈“__ada_”, snb_add) 加 入 到 tp_aict 的 过 程 。 这 个 阶段 
的 add_operators、 add methodGs, add members, add_ getset 都 是 完成 这 样 的 填充 
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tp_dict 的 动作 。 部 么 , 一 个 问题 浮现 了 , Python 虚拟 机 是 如 何 知道 *_aaa_ ”和 nb_add 
之 间 存 在 关联 的 呢 ? 这 种 关联 是 在 Python 源 代码 中 预先 就 确定 好 了 的 ， 存 放 在 一 个 名 为 
slotderfs 的 全 局 数组 中 。 


12.2.3.1 slot 与 操作 排序 


在 进入 填充 tp_aict 的 复杂 操作 之 前 , 我 们 先 来 介绍 Python 内 部 的 一 个 概念 : slot。 
在 Python 内 部 ，slot 可 以 视 为 表示 pyTypeobject 中 定义 的 操作 ， 在 一 个 操作 对 应 一 个 
slot， 但 是 slot 又 不 仅仅 包含 一 个 函数 指针 ， 它 还 包含 其 他 一 些 信息 。 在 Python 内 部 ， 
slot 是 通过 slotdef 这 个 结构 体 来 实现 的 。 






mis Ns A 





在 一 个 sloc 中 , 存储 着 与 pyTypeQbject 中 一 种 操作 相对 应 的 各 种 信息 。 比如 , name 
就 是 操作 对 应 的 名 称 ， 比 如 字符 串 “__aaa_"; offgset 则 是 操作 的 函数 地 址 在 pyiieap- 
Typeobject 中 的 偏 移 量 ， 而 function 则 指向 一 种 称 为 slot function 的 阔 数 。 

Python 中 提供 了 多 个 宏 来 定义 一 个 sloc， 其 中 最 基本 的 是 mpsIom 和 ETSLOT: 











人 





TPSLOT 和 BTSEOoT 的 区 别 在 于 ?Psior 计算 的 是 操作 对 应 的 函数 指针 〈 比 如 nb _aad) 
在 PyTypeobject 中 的 偏 移 量 ， 而 ErsLor 计算 的 是 函数 指针 在 pyHeapTypeobject 中 的 
偏 移 量 。 但 是 观察 下 面 列 出 的 pyHeapTypeobject 的 代码 ， 可 以 发 现 ， 因为 eyHeapType- 
Object 的 第 一 个 域 就 是 pymypeobjecet， 所 以 mpsbhor 计算 出 的 偏 移 量 实际 上 也 就 是 相对 
于 PyHeapTypeObject 的 偏 移 量 。 


fjython 洲 枉 济 折 一 深 殿 并 划 动 态 语 膏 述 心 扩 并 
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对 于 一 个 pyrypeobject 来 说 , 有 的 操作 ,比如 nb_aaa, 其 函数 指针 是 在 pyMimber- 
Methods 中 存放 的 ， 而 pyTypeobject 中 却 是 通过 一 个 tp_as_number 指针 指向 男 一 个 
PyNumberMethods 结构 ， 所 以 ， 实 际 上 根本 没有 办 法 计算 出 nb_ada 在 pyTypeobject 中 
的 偏 移 量 ， 只 能 计算 其 在 pyHeaprypeobject 中 的 偏 移 量 。 






因此 ,与 sb_aaa 对 应 的 slot 必须 是 通过 grsuor 来 定义 的 。 到 了 这 里 ， 细 心 的 读者 
一 定 发 现 了 一 个 重大 的 问题 ， 如 果 说 与 nb_ada 对 应 的 slot 中 记录 的 offset 是 基于 
pyHeadttypeobject 的 ， 而 pytrit_rmype 却 是 一 个 pymypeobject， 那 么 显然 通过 这 个 偏 
移 量 不 可 能 得 到 PyIint_Type 中 为 int 准备 的 nb_aaa。 昵 ， 那 要 这 个 劳 什 子 的 offset 有 
什么 用 呢 ? 

答案 非常 诡异 ， 真 的 ， 这 个 ofEset 是 用 来 对 操作 进行 排序 的 。 排 序 ? 排 哪 门 子 的 序 
呢 ? 别 急 ， 为 了 理解 为 什么 需要 对 操作 进行 排序 ， 需 要 来 看 看 Python 预先 定义 的 slot 集 
合 一 一 slotdefs。 






其 中 的 BINSLOT，SQSLOT 等 这 些 宏 实际 上 都 是 对 ETSLOT 的 一 个 简单 包装 。 在 
slotdefs 中 ， 可 以 发 现 ， 操作 名 (比如 _aaa__) 和 操作 并 不 是 一 一 对 应 的 ， 存 在 着 多 个 
操作 对 应 同一 个 操作 名 的 情况 ， 同 样 也 存在 着 同一 个 操作 对 应 不 同 操 作 名 的 情况 。 对 于 相 
同 操 作 名 对 应 不 同 操作 的 情况 ， 在 填充 tp_dict 时 ， 就 会 出 现 问题 ， 比 如 对 于 
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“getitem _”， 在 tp_dict 中 与 其 对 应 的 是 sq_item， 还 是 mp_subscript 甩 ? 

为 了 解决 这 个 问题 ， 就 需要 利用 slot 中 的 offset 信息 对 slot (也 就 是 对 操作 ) 进 
行 排序 。 回顾 一 下 前 面 列 出 的 pyHeaprypeobject 的 代码 , 它 与 一 般 的 struct 定义 不 同 ， 
其 实 定义 中 各 个 域 的 顺序 是 相当 关键 的 ， 在 顺序 中 隐 含 着 操作 优先 级 的 信息 。 比 如 在 
pyHeapTypeObject 中 ，PyMappingMethods 的 位 置 在 PysequenceMethods 之 前 ， 
mp_subscript 是 PyMappingMethods 中 的 PyObject*, 而 sq_item 是 pysequerniceMethods 
中 的 Pyobject*， 所 以 最 终 计 算出 的 偏 移 存 在 如 下 的 关系 : offset (mp_subscript) < 
offset (sgq_item)s 如 果 一 个 pyTypeobject， 购 定义 了 mp_subscript， 又 定义 了 sq_ 
item， 那 么 Python 虚拟 机 将 选择 mp_subscript 与 ”getitem__” 建立 联系 。 非 常 幸 
运 , PyList_Type 正 是 这 样 的 一 个 PyTyYypeobject， 在 PyList_Type 中 ， tp_as_mapping. 
mp_subscript 指向 list_subscript; 而 tp_as_sequence.sgq_ item 指向 list_item， 
我 们 可 以 在 两 者 中 和 输出 信息 ， 来 查看 在 这 场 宫廷 选秀 中 ， 究 竟 花 落 谁 家 。 结 果 如 图 12-7 
所 示 : 


>>> Slass A(lllist}): 
Pasy 


>>> a = A() 
>>> a.Gppend (i) 


>>> Frint al0] 

call list subscript 
call list item 

2: 





图 12-7 ”探测 list 中 _getitem_ 对 应 的 操作 
因为 Python 对 1ist 的 索引 元 素 的 操作 有 优化 ， 所 以 我 们 必须 从 1ist 派生 出 一 个 自 
定义 类 ， 才 能 看 出 结果 ，a 中 的 “_getitem， ”对 应 的 操作 就 是 对 PyList_Type 中 的 
mp_subscript 和 sq_item 选择 的 结果 。 可 以 看 到 确实 1ist_subscript 被 选中 了 ， 至 于 
为 什么 之 后 还 会 输出 一 个 调用 1ist_item 的 信息 @, 答案 非常 简单 ， 也 非常 诡异 ， 因 为 在 
list_subscript 中 调用 了 消 数 1ist_items 


整个 对 slotaefs 的 排序 在 init_slotaefs 中 完成 : 
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在 slot 的 排序 策略 函数 slotaef_cmp 中 ， 可 以 清晰 地 看 到 ; slot 中 的 ofEset 正 是 
操作 排序 的 关键 所 在 。 


12.2.3.2 从 slot 到 descriptor 


在 slot 中 ， 包 含 了 很 多 关于 一 个 操作 的 信息 ， 但 是 很 可 惜 ， 在 tp_aict 中 ， 与 
“_getitem ”关联 在 一 起 的 ， 一 定 不 会 是 一 个 slot。 原因 很 简单 ，slot 不 是 一 个 
pyobject, 它 不 能 存放 在 dict 对象 中 。 当 然 , 如 果 我 们 再 深入 地 思考 一 下 , 会 发 现 , slot 
也 不 会 被 调用 。 既 然 slot 不 是 一 个 Pyobject， 那 么 它 就 没有 type， 也 就 无 从 谈 起 什么 
tp_call 了 ， 所 以 slot 是 无 论 如 何 也 不 能 满足 前 面 描 述 的 Python 中 的 “可 调用 ”这 个 概 
党， 

前 面 我 们 说 过 ，Python 虚拟 机 在 cp_aict 找到 “getitem__” 对 应 的 “操作 ”后 ， 
会 调用 该 “操作 *， 所 以 在 tp_dict 中 与 “_getitem ”对 应 的 具 能 是 另 一 个 包装 了 
slot 的 pyobiect， 在 Python 中 ， 这 是 一 个 我 们 称 之 为 aescriptor 的 东西 。 

在 Python 内 部 ,存在 多 种 descriptor, 与 PyTypeobject 中 的 操作 对 应 的 是 pywrapper- 
DescrObiject ,在 此 后 的 描述 中 ， 我 人 ] 将 用 术语 descriptor 来 专 门 表示 PyWrapperDescr-— 
object。 一 个 Gescriptor 包含 一 个 slot， 其 创建 是 通过 PyDescr_NewWrapper 完成 的 . 
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12.2 从 type 对 象 到 class 对 象 ”多 273 





Python 内 部 的 各 种 Gescriptor 都 将 包含 ByDpescr_CoMMoN， 其 中 的 a_type 被 设置 
为 pyDescr_NewWrapper 的 参数 type， 而 a_wrapped 则 存放 着 最 重要 的 信息 :操作 对 应 
的 函数 指针 ， 比 如 对 于 pyList_Type 来 说 , 其 tp_aict["_getitem_"] .dG_wrapped 就 
是 &mp_subscripts 而 slot 则 被 存放 在 了 ad_base 中 。 


PyWrapperDescrObject 的 type 是 PyWrapperDescr_Types 其 中 的 tp_call 是 
wrapperdescr_call， 当 Python 虚拟 机 “调用 ”一 个 descriptor 时 ， 也 就 会 调用 
wrapperdescr_call。 对 于 descriptor 的 “调用 ” 过 程 ， 我 们 将 在 以 后 详细 剖析 。 


12.2.3.3 ”建立 联系 


排序 后 的 结果 仍然 存放 在 siotaefs 中 ，Python 虚拟 机 这 下 就 可 以 从 头 到 尾 遍 历 
slotdefs， 基 于 每 一 个 slot 建立 一 个 aeseriptor， 然 后 在 tp_aict 中 建立 从 操作 名 到 
descriptor 的 关联 。 这 个 过 程 在 aaa_operators 中 完成 : 





Python 源码 别 折 一 一 深度 荣 帝 动态 语言 检 心 花 羽 
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在 add_operators 中 ， 首 先 会 调用 前 面前 析 过 的 init_slotdefs 对 操作 进行 排序 ， 
然后 遍历 排序 完成 后 的 slotaefs 结构 体 数组 ， 对 其 中 的 每 一 个 slor (slotaef)， 通 过 
slotptr 获得 该 slot 对 应 的 操作 在 pyrypeobject 中 的 函数 指针 ,并 接着 创建 descriptor， 
在 tp_dict 中 建立 从 操作 和 名 (siotdef.name_strobj》 到 操作 《dascripEoz) 的 关联 。 


需要 注意 的 是 , 在 创建 descriptor 之 前 , Python 虚拟 机 会 检查 在 tp_aict 中 操作 名 
是 否 已 经 存在 ， 如 果 已 经 存在 ， 则 不 会 青 次 建立 从 操作 名 到 操作 的 关联 。 正 是 这 种 检查 机 
制 与 上 一 节 的 排序 机 制 相 结合 ， 使 得 Python 虚拟 机 能 够 在 拥有 相同 操作 名 的 多 个 操作 中 
选择 优先 级 最 高 的 操作 。 

在 add_operators 中 ? 上 面 描述 的 动作 都 很 直观 、 简 单 ,而 最 难 的 动作 隐藏 在 s lotptr 
这 个 函数 中 。 它 的 功能 是 完成 从 slot 到 slot 对 应 操作 的 真实 函数 指针 的 转换 。 我 们 已 经 
知道 , 在 slot 中 存放 着 操作 的 offset, 但 是 很 不 幸 , 这 个 oftset 是 相对 于 pyHeapType- 
object 的 偏 移 ， 而 操作 的 真实 函数 指针 则 在 PyTypeobject 中 指定 。 更 不 幸 的 是 ， 
pyTypeobject 和 PyHeapTypeobject 不 是 同 构 的 ， 因 为 PyHeapTypeobject 中 包含 了 
PyNumberMethods 结构 体 , 而 PyTypeObject 中 只 包含 了 PyNumberMetho6ds*。 所 以 siot 
中 存储 的 这 个 关于 操作 的 offset 对 于 PyTypeObject 来 说 ， 不 可 能 直接 使 用 ， 必 须 通 过 
转换 。 

举 个 例子 ， 假 如 说 调用 slotptr (gpyList_Type, offset (pyHeapTypeobject, mp_ 
subscript))， 首 先 判断 这 个 偏 移 大 于 ofEset (PyHeapTypeObject，as_mapping)， 所 
以 会 先 从 pyrypeobject 对 象 中 获得 as_mapping 指针 P， 然 后 在 P 的 基础 上 进行 偏 移 就 
可 以 得 到 实际 的 函数 的 地 址 ， 而 偏 移 量 aelta 为 : 






这 个 复杂 的 转换 过 程 就 在 silotptr 中 完成 : 
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为 什么 判断 必须 首先 从 pyteaptypsobjeet 中 排 在 后 面 的 pyseauenceMethods 开始 ， 
然后 向 前 ， 依 次 判断 PyMappingMethods 和 PyNumberMethods 呢 2 假设 我 们 首先 从 
ByNumberMethods 开始 判断 ， 如 果 一 个 操作 的 offset 大 于 在 pyHeapType0bject 中 ， 
as_tiumber 在 PyNMumberMethods 的 偏 移 量 ， 那么 我 们 还 是 没有 办 法 确认 这 个 操作 是 属于 
pyNumberMethods 的 ? 还 是 属于 PyMappingMethods 或 PySequenceMethods 的 ? 只 有 从 
后 向 前 进行 判断 ， 才 能 解决 这 个 问题 。 

好 了 ， 现 在 我 们 终于 能 够 摸 清楚 Python 在 改造 pymypeobject 时 对 tp_aict 做 了 什 
么 手脚 了 。 图 12-8 显示 了 PyList_mype 完成 初始 化 之 后 的 整个 布局 。 其 中 包括 了 我 们 这 
里 讨论 的 Gescriptor 和 slot: 

list_as_mapping 





图 12-8 add_operators 完成 后 的 PyList_Type 


在 图 12-8 中 , 从 PyList_Type,tp_as_mapping 中 延伸 除去 的 部 分 是 在 编译 时 就 已 经 
确定 好 了 的 , 而 从 tp_aict 中 延伸 出 去 的 部 分 是 在 Python 运行 时 环境 初始 化 时 才 建 立 的 。 





276 旺 第 12 章 Python 虚拟 机 中 的 类 机 制 


pyType_Ready 在 通过 add_operators 添加 了 Pymypeobject 对 象 中 定义 的 一 些 
operator 后 ， 还 会 通过 add_methods、adgd_members 和 adGd_getsets 添加 在 PyType- 
object 中 定义 的 tp_methods、tp_members 和 tp_getset 函数 集 。 这 些 aaa_*** 的 过 程 
与 add_operators 类 似 ， 不 过 最 后 添加 到 te_dict 中 的 descriptor 就 不 再 是 
PyWrapperDescrObject, 而 分 别 是 PyMethodDescrObjects PyMemberDescrObiject, 
PpyGetrSetDescrObject,。 

图 12-8 所 显示 的 class 对 象 大 部 分 都 正确 了 ， 但 是 可 惜 ， 它 还 不 是 完全 正确 。 考 虑 
图 12-9 显示 的 例子 : 

>3> Ciasys A(llist}: 


def xepr {self}': 
return Python’ 


>>> 5 = 1 3 $§ A() 





图 12-9 覆盖 list 特殊 操作 的 类 


热 悉 Python 的 读者 都 知道 ，_repr_ 是 一 个 Python 中 的 special method。 当 Python 
虚拟 机 执行 表达 式 “s = '%s* % A()” 时 ， 会 最 终 调 用 A.tp_repr， 如 果 按 照 图 12-8 所 
示 的 布局 ， 并 且 对 照 PyList_mType， 屠 么 就 应 该 调用 1ist_repr 这 个 函数 ， 但 并 不 是 这 
样 的 ，Python 虚拟 机 最 终 调用 的 是 我 们 在 A 中 重 写 之 后 的 _*epr__。 这 意味 着 Python 
在 初始 化 A 时， 对 cp_repr 进行 了 特殊 处 理 。 为 什么 Python 虚拟 机 会 知道 要 对 tp_repr 
进行 特殊 处 理 呢 ? 答案 还 是 在 slot 身上 。 


在 siotadefs 中 ,有 一 条 slot 为 TPSLOT("*__repr_", tp_repr, slot_tp_repr,...... ) 9 
Python 虚拟 机 在 初始 化 六 时 ， 会 检查 <class A> 的 tp_dict 中 是 否 存 在 “repr__”。 
在 后 面 剖析 用 户 自 定义 的 class 对 象 的 创建 时 ， 我 们 会 看 到 ， 因 为 在 定义 class a 时 重 
写 了 _repr_ 这 个 操作 ， 所 以 在 A.tp_dict 中 ,“_repr_ ”一 开始 就 会 存在 ，Python 
虚拟 机 会 检测 到 它 的 存在 。 一 旦 检测 到 “_repr__” 存 在 ，Python 虚拟 机 就 会 根据 
Es 对 应 的 slet 顺藤摸瓜 ， 找到 tp_repr, 并 且 将 这 个 函数 指针 替换 为 Slot 
中 指定 的 &slot_tp_” repr。 所 以 当 Python 虚拟 机 后 来 A.tp_repr 上 时， 实际 上 执行 的 是 
slot_bcp_repr 〈 见 代码 清单 12-2)。 


代码 清单 12-2 
Ltyp :+ 国 Dy 
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在 slot_tp_repr 中 ， 会 寻找 “_repr_ ”属性 对 应 的 对 象 ， 正 好 就 会 找到 我 们 在 A 
的 定义 中 重 写 的 函数 ， 后 面 会 看 到 ， 这 个 对 象 实际 上 是 一 个 pyrunctionobject。 这 样 一 
来 ， 就 完成 了 对 默认 的 13st 的 repr 行为 的 替换 。 所 以 对 于 a 来 说 , 其 初始 化 结束 后 的 内 
存 布局 则 会 如 图 12-10 所 示 ; 





(descriptor) ee slotdef 
图 12-10 ”初始 化 完成 后 的 A 


当然 ， 并 不 是 a 中 所 有 的 操作 都 会 有 这 样 的 变化 。a 中 其 他 操作 还 是 会 指向 
pyList_Type 中 指定 的 函数 ， 比 如 tp_iter 还 是 会 指 癌 list itere 


对 于 A 来 说 ， 这 个 变化 是 在 fixup_slot_dispatchers{PyTypeObject* type) 中 完 
成 的 ,对 于 内 管 class 对 象 , 不 会 进行 这 个 操作 。 这 个 操作 实际 上 是 属于 创建 自 定义 class 
对 象 时 的 动作 , 这 里 为 了 完整 地 介绍 初始 化 结束 后 的 class 对 象 的 布局 , 特 提 前 在 此 叙述 。 
图 12-11 显示 了 在 Visual Studio 中 观察 到 的 fixup_slot_aispatchers 前 后 tp_repr 的 变 
化 : 


eocacel) list_repr (PyListObiect *) 
An os MMMM mt 


Sm fe WI Po 


/fixup_slot_dispatcher 
Sh 
| = 


sr 


=P tp_repr Oxlel5a690 slot_tp_repr (object #) 
Fn se me NviWiotadan nh art=nmrnnrimnenei nh on 


图 12-11 fixup_slot_dispatcher 前 后 的 tp_repr 





12.2.3.4 确定 MRO 
所 谓 的 MRO， 即 是 指 Method Resolve Order， 更 一 般 地 ， 也 是 一 个 class 对 象 的 属性 
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解析 顺序 。 如 果 Python 像 Java 一 样 ， 只 支持 单 根 继 承 的 话 ， 这 就 不 是 一 个 问题 了 。 但 是 
的 Python 代码 : 











由 于 在 D 的 基 类 a 和 中 都 实现 了 show, 那么 在 调用 a.show() 时 , 究 况 是 A 的 show 
被 调用 ， 还 是 B 的 show 被 调用 呢 ? Python 内 部 在 pyType_Ready 中 通过 mro_internal 
函数 完成 了 对 一 个 类 型 的 mro 顺序 的 建立 。Python 虚拟 机 将 创建 一 个 tuple 对 象 ， 在 对 
象 中 依次 存放 着 一 组 class 对 象 。 在 tuple 中 ，class 对 象 的 顺序 就 是 Python 虚拟 机 在 
解析 属性 时 的 mro 顺序 。 最 终 这 个 tuple 将 被 保存 在 PyTypeobject .tp_mro 中 。 

由 于 mro_internal 在 内 部 实现 时 相当 繁杂 ， 所 以 这 里 我 们 不 深入 代码 ， 仅 在 概念 上 痢 
析 Python 虚拟 机 如 何 确定 一 个 class 对 象 的 mro 列表 。 

对 于 在 mro.py 中 的 D，Python 虚拟 机 会 在 内 部 创建 一 个 1ist， 其 中 根据 5 的 声明 依 

次 放 入 D 和 它 的 基 类 ， 如 图 12-12 所 示 : 





12-12 D 建立 mro 列表 时 Python 虚拟 机 内 部 的 辅助 list 
注意 在 list 的 最 后 一 项 存放 着 一 个 包含 所 有 D 的 直接 基 类 的 列表 。 Python 虚拟 机 将 
从 左 到 右 遍 历 该 1ist， 当 访问 到 1ist 中 的 任 一 个 基 类 时 ， 如 果 基 类 存在 mro 列表 ， 则 会 
转 而 访问 基 类 的 mzo 列表 在 访问 的 过 程 中 ,不 断 将 所 访问 到 的 class 对 象 放 入 到 5 自身 
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的 mro 列表 中 去 。 
我 们 跟踪 这 个 遍历 的 过 程 来 看 一 下 。 
1， 首先 获得 D，D 的 mro 列表 (tp_mro) 中 没有 D， 所 以 放 入 bp， 
2 获得 c，D 的 mro 列表 没有 c， 所 以 放 入 c。 现 在 Python 虑 拟 机 发 现 c 中 存在 mro 列 
表 ， 所 以 转 而 访问 c 的 mro 列表 : 
> ”获得 a，pD 的 mrzo 列表 中 没有 A， 放 入 a; 


> 获得 1ist， 这 里 需要 特别 注意 ， 尽 管 5 的 mro 列表 中 没有 1ist， 但 是 在 后 面 
的 B 的 mro 列表 中 出 现 了 1ist; 那 么 Python 典 拟 机 会 跳 过 这 里 的 1ist, 将 list 
的 处 理 推迟 到 处 理 B 的 mro 列表 时 ; 


> ”获得 objecc， 同 样 ， 将 对 opbjeet 的 处 理 推迟 。 
3. 获得 B,D 的 mro 列表 中 没有 B， 所 以 放 入 B。 转 而 访问 8B 的 mro 列表 : 

> 获得 14st， 这 时 可 以 将 1ist 放 入 DD 的 mro 列表 ; 

> 获得 object， 这 时 可 以 将 object 放 入 DD 的 mro 列表 。 

当 遍 历 的 过 程 结束 后 ,D 的 mro 列表 中 也 就 存储 了 一 个 class 对 象 的 顺序 列表 了 。 从 
上 面 的 遍历 过 程 可 以 看 到 ， 这 个 列表 是 (D、c、A、B、lisc、ocbjecc)， 我 们 可 以 通过 在 
mro.py 中 添加 如 下 的 代码 ， 对 这 个 结果 进行 验证 ， 





我 们 还 可 以 改变 D 的 基 类 列表 , 对 yp mro 列表 的 算法 的 
正确 性 。 输 出 结果 如 表 12-2 所 示 : 


表 12-2 不 同 继 承 顺 序 下 的 mro 列表 





12.2.3.5 ”继承 基 类 操作 


Python 碟 拟 机 确定 了 mro 列表 之 后 ， 就 会 遍历 mro 列表 注意 ， 由 于 一 个 ciass 对 
象 的 mro 列表 的 第 一 项 总 是 其 自身 ， 所 以 遍历 是 从 第 三 项 开始 的 )。 在 mro 列表 中 实际 上 
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存储 的 就 是 class 对 象 的 所 有 直接 和 间接 基 类 ，Python 虚拟 机 会 将 class 对 象 自 身 没 有 
设置 而 基 类 中 设置 了 的 操作 挡 贝 到 class 对 象 中 ， 从 而 完成 对 基 类 操作 的 继承 动作 。 
这 个 继承 操作 的 动作 发 生 在 inherit_slots 中 : 








在 inherit slots 中 ， 会 找 由 相当 多 的 操作 ? 这 里 我 们 拿 nb_add 来 做 个 例子 : 






我 们 知道 pyBool_Type 中 并 没有 设置 ab_ada 操作 ,但 它 的 tp_base 设置 的 是 gpyInt_ 
Type， 而 FyInt_Type 中 却 设置 了 nb_ada 操作 。 所 以 我 们 可 以 在 pytype_Ready 中 添加 
输出 语句 ， 当 处 理 的 type 分 别 是 bocl 和 int 时 ， 输 出 其 nb_ada 的 地 址 ， 进 行 验证 。 
为 按照 inherit_slots 的 结果 ， 这 两 个 地 址 应 该 都 指向 同一 个 地 址 , 即 int_aad 的 地 址 。 
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输出 的 结果 为 : 





这 个 结果 预示 着 对 于 Python 中 的 两 个 bool 对 象 ， 我们 可 以 进行 加 法 操作 ， 读 者 可 以 
自己 尝试 一 下 把 两 个 bool 对 象 相 加 ， 结 果 会 令 你 先 大 吃 一 惊 ,但 是 旋即 又 会 觉得 “ 理 当 
如 此 ”的 @。 


12.2.3.6 ”填充 基 类 中 的 子 类 列表 


到 这 里 ，PyType_Ready 还 镜 下 最 后 一 个 重要 的 动作 了 : 设置 基 类 中 的 子 类 列表 。 在 
每 一 个 pyTypeObject 中 ， 有 一 个 tp subclassesy 这 个 东西 在 PyType_Ready 完成 后 将 
是 一 个 list 对 象 。 在 其 中 存放 着 所 有 直接 继承 自 该 类 型 的 class 对 象 。PyType_Ready 
通过 调用 ada_subclass 完成 向 这 个 tp_subclasses 中 填充 子 类 对 象 的 动作 ; 





在 图 12-13 我们 证 了 这 个 了 列表 的 存在 


-SUbc. -| 
[<type ‘type'>, <type "weakref'>, <type ‘'int’>, <type ‘basestring'> 
'>, <type ‘NoneType'>, <type ‘NotInplementadType'>, <type "Encoding 
'exceptions.Basebxception’>, <type ‘module'>, <type "imp-NuliTnport 


2ipimport .zipimporter'>, <type nt. stat ,result'>, <xtype "nt.statvfs 
¥pe dict'>, <type function'>, <type " _types ， Halper'>, <class ‘ait 
<class 'site. Helper’>, <type ‘'set'>, <class 'site.Quitter’ >, <typ 
class 'codecs.Incrementalpncoder'>, <class 'codecs.IincrementalDecod 





图 12-13 ”验证 subclasses 的 存在 
果然 ，object 真 不 愧 是 “万 物 之 母 ” 那么 多 的 class 对 象 都 是 继承 自 object 的 。 


到 了 这 里 ， 我 们 才 算是 完整 地 剖析 了 PyYype_Ready 的 动作 ， 可 以 看 到 ，Python 虚拟 机 对 
Python 的 内 稼 类 型 对 应 的 PyTypeobject 进行 了 多 种 复杂 的 改造 工作 ， 总 结 一 下 ， 主 要 包 
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括 以 下 的 工作 : 

> 设置 type 信息 、 基 类 及 基 类 列表 ; 

填充 tp_aict; 

确定 mro 列表 ; 

基于 mro 列表 从 基 类 继承 操作 ; 

设置 基 类 的 子 类 列表 。 

这 里 列 出 的 PyType_Type 中 的 动作 序列 只 是 一 个 框架 性 的 概括 ， 在 处 理 不 同类 型 的 
时 候 ， 有 的 操作 不 一 定 完 全 等 同 ， 比 如 对 于 不 同类 型 ， 可 能 从 基 类 继承 操作 时 就 会 有 不 同 
的 行为 ， 有 的 类 型 可 能 继承 得 多 ， 有 的 可 能 继承 得 少 。 对 于 某 个 特定 类 型 ， 读 者 可 以 自己 
跟踪 PyType_Ready 的 操作 ， 以 清楚 了 解 初始 化 过 程 中 的 每 一 个 细节 。 


12.3 用户 自 定义 class 


从 本 节 开 始 ， 我 们 将 正式 进入 对 用 户 自 定 义 type (class) 的 剖析 。 在 class_0.py 中 ， 
我 们 将 研究 单个 class 的 实现 ,所 以 在 这 里 并 没有 关于 继承 及 多 态 的 讨论 ,然而 在 class_0.py 
中 ， 我 们 看 到 了 许多 关于 类 的 内 容 ， 其 中 包括 类 的 定义 、 类 的 构造 函数 、 对 象 的 实例 化 、 
类 成 员 函 数 的 调用 等 。 这 些 内 容 就 是 在 本 节 中 将 深入 剖析 的 内 容 。 


> 











在 第 11 章 对 Python 中 函数 机 制 的 分 析 中 ， 我 们 知道 ， 对 于 一 个 包含 有 函数 定义 的 
Python 源 文件 ， 在 Python 源 文 件 编译 之 后 ， 会 得 到 一 个 与 源 文件 对 应 的 Bycodeopject 
对 象 &， 而 与 函数 对 应 的 pycodieobject 对 象 B 则 存储 在 A 的 co_cnosts 变量 中 。 那 么 对 
于 包含 类 的 Python 源 文 件 ， 编 译 之 后 的 结果 又 如 何 呢 ? 


我 们 可 以 照 葫芦 画 蒜 ， 根 据 以 前 的 经 验 ， 推 测 与 class_0.py 对 应 的 pycodeobject 对 
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象 会 包含 一 个 与 class 对 应 的 Pycode0bject， 而 与 ciass 对 应 的 pycodeobject 对 象 则 
包含 3 个 与 函数 对 应 的 Bycodeobject。 这 正 是 Python 编译 之 后 的 结果 ， 如 图 12-14 所 示 
(图 中 的 方 框 表示 Pycodeobject 对 象 ， 虚线 箭头 表示 包含 关系 ): 


class_0.pY Eee 
[class A(object):] 


12-14 class_0.py 编译 后 的 PyCodeObject 之 间 的 关系 


在 第 11 章 对 函数 机 制 的 前 析 中 ， 我 们 已 经 看 到 ， 函 数 的 声明 语句 de 语句 和 函数 的 
实现 代码 虽然 是 一 个 逻辑 整体 ， 但 是 它们 对 应 的 字 节 码 指 令 却 是 分 离 在 两 个 pycode- 
object 中 的 。 在 类 机 制 中 ， 同 样 存在 这 样 的 分 离 现 象 。 声 明 类 的 clasg a 语句 一 -准确 
地 说 ， 应 该 是 创建 类 A 的 语句 一 编译 后 的 字 节 码 指令 序列 存储 在 与 class_0.py 对 应 的 
EyCodeObiject 对 象 中 ; 而 classa 的 实现 代码 编译 后 的 字 节 码 指令 序列 则 存储 在 A 所 对 
应 的 pycodeobject 对 象 中 。 这 一 点 在 图 12-14 中 可 以 看 得 很 清楚 。 在 图 12-14 中 还 可 以 
看 到 ， 类 的 成 员 函 数 与 一 般 的 函数 相同 ， 同 样 也 会 有 这 种 声明 和 实现 分 离 的 现象 。 


当 Python 执行 引擎 开始 执行 class_0.py 时 ， 是 从 与 class_0,py 对 应 的 那个 pycode- 
object 开始 的 ， 第 一 步 就 是 执行 “class A” 这 条 Python 语句 ， 并 创建 class 对 象 。 








- 


总 © 
[def __ init (self):] 
[ierteag:] eb----)| £ | 


[def g(self, value):] ® 






12.3.1 创建 class 对 象 


12.3.1.1 class 的 动态 元 信息 


所 谓 class 的 元 信息 就 是 指 关于 class 的 信息 ， 比 如 说 class 的 名 称 ， 它 所 拥有 的 
属性 、 方 法 ， 该 class 实例 化 时 要 为 实例 对 象 申请 的 内 存 空 间 的 大 小 等 。 对 于 class_0.py 
中 所 定义 的 class A 来 说 ， 我 们 必须 知道 这 样 的 信息 : 在 class A 中 ， 有 一 个 符号 EE 这 
个 上 对 应 了 一 个 函数 ; 还 有 一 个 符号 g， 这 个 gq 也 对 应 了 一 个 函数 。 有 了 这 些 关于 的 元 
信息 ， 才 能 创建 A 的 class 对 象 ， 否 则 ， 我 们 是 没有 办 法 创建 A 的 ciass 对 象 的 。 元 信 
总 在 现代 编程 语言 中 是 一 个 非常 重要 的 概念 ， 正 是 有 了 这 个 东西 ，Java、C# 中 的 一 些 初级 
的 诸如 Reflection 等 动态 特性 才 有 可 能 得 到 实现 ,在 以 后 的 剖析 中 我 们 可 以 看 到 ,在 Python 
中 ， 元 信息 的 概念 被 发 挥 得 淋漓尽致 ， 因 而 Python 也 提供 了 Java、C# 等 语言 所 没有 的 高 
度 灵 活 的 动态 性 。 


在 考察 具体 的 字 节 码 之 前 ， 我 们 首先 来 看 看 与 class_0.py 对 应 的 pycoaeobject 中 ， 
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常量 表 (co_consts) 和 符号 表 (c6_names) 的 情况 ， 如 图 12-15 所 示 : 


- <CcoNnsts> 
<internStr index="0" length="1” value="A" /> 
+ <codeObject> 
<int value=" 10" /> 
<NoneObiject /> 
</consts> 


~ <nNnames> 
<internStr index=" 11" length="6" value= object' /> 
<strRef index="Q" value="A" /> 
<intemStr indgx="12" lengt\="1" value="a" /> 
<strRef iNndex="4" value="f" /> 
<strRef ndex="7" valua="g" /> 
</names> 


图 12-15 class_0.py 编译 后 的 符号 表 和 常量 表 
字 节 码 如 下 : 









| i 1 - Bn 
AD 


们 在 字 节 码 段 的 前 面 标 出 了 这 段 字 节 码 位 于 哪个 Pycodeobject 中 ， 这 样 能 够 更 清 

晰 地 展示 Python 虚拟 机 现在 所 处 的 位 置 。 

首先 ，“0 LOaD_CONST 0” 指 令 将 类 的 名 称 压 入 到 运行 时 栈 中 ， 而 接 下 来 的 LOAD_ 
NAME 指令 和 BUILD_TUPLE 指令 是 一 个 非常 关键 的 点 ， 这 两 条 指令 将 基于 类 a 的 所 有 基 类 
创建 一 个 基 类 列表 ， 当 然 这 里 只 有 一 个 名 为 object 的 基 类 。 

随后 ，Python 虚拟 机 通过 “9 LOAD_coNsm 1” 指 令 将 与 入 对 应 的 ByCodeobject 压 
入 到 运行 时 栈 中 ， 并 通过 MakE_FUNCTION 指令 创建 一 个 PyPunctiorniobject 对 象 。 在 这 
些 操作 完成 之 后 ， 我 们 来 看 一 看 这 时 的 运行 时 栈 ， 如 图 12-16 所 示 : 
en i 
图 12-16 MAKE_FUNCTION 指令 完成 后 的 运行 时 栈 
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随后 ，Python 虚拟 机 开始 执行 “15 caLL_FUNCTION 0” 指令 。 从 前 面 对 函 数 机 制 的 
分 析 我 们 已 经 看 到 ,对 CALL_pUNcTION 的 执行 最 终 将 创建 一 个 新 的 pyFrameoBject 对 象 ， 
并 开始 执行 这 个 pyFrameobjact 对 象 中 所 包含 的 字 节 码 序列 ， 很 显然 ， 这 些 字 节 码 序 列 
来 自在 运行 时 栈 中 静 静 位 立 的 堵 个 pyPunctionobject 对 象 。 参考 上 面 的 描述 ,我 们 可 以 
发 现 ， 这 段 字 节 码 序列 实际 上 就 是 来 自 与 A 对 应 的 pycodeobject 对 象 的 。 换 句 话说 ,， 现 
在 Python 虚拟 机 所 面 对 的 目标 从 与 class_0.py 对 应 的 字 节 码 序列 转换 到 了 与 class a 对 应 
的 字 节 码 序列 : 





Python 执行 引擎 在 执行 caLL_FUNCTION 时 ， 实 际 上 只 是 执行 了 1 个 赋值 语句 和 3 个 
sef 语 向 ， 创 建 了 3 个 pyFunictionobject 对 象 ， 创 建 这 3 个 对 象 有 什么 用 呢 ? 别 急 ， 我 
们 先 看 一 看 ， 与 class A 对 应 的 pycodeObject 对 象 中 的 常量 表 和 符号 天 ， 加 图 12-17 所 
不: 


ihe index="1" length="6” value="Python’" /> 
+ <codeObject> 


<iNternStr Index="8" length="8" value=" > 
<internStr iNndex="9" jength="10" value=" 
<internStr ndex="10" length="4" value="name 

<strRef index="3" value=" init _" /> 

<strRef ndex="q" value=" /> 

<strRef Wdex="7" value="g" /> 





图 12-17 A 编译 后 的 符号 表 和 常量 表 
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开始 的 LOAD_NAME 和 STORE_NAME 将 符号 “_module_ ”和 全 局 名 字 空 间 中 符号 
“”__name_ “对 应 的 值 ("_ main__”) 关联 了 起 来 , 并 放 入 到 local 名 字 室 间 (Pygrame- 
OQbijiect 对 象 的 f oaatls 中 。 需要 说 明 的 是 ， 与 之 前 看 到 的 函数 机 制 不 同 ， 在 前 面 执 行 
“15 CALL_FUNCTION 0” 指 令 ， 创 建新 的 PyFrameObject 对 象 时 ，pyFrameobject 中 
的 £_locals 被 创建 了 ， 并 指向 了 一 个 pypictobjsct 对 象 。 而 在 函数 机 制 中 ， 这 个 
f_locals 是 被 设置 为 ut 的 ， 函数 机 制 中 局 部 变量 是 以 一 种 位 置 参数 的 形式 放 在 了 运行 
时 栈 前 面 的 那 段 内 存 中 。 如 果 记 不 太 清 了 ， 请 参考 第 11 章 对 函数 机 制 的 剖析 。 


接着 ，Python 虚拟 机 连续 执行 了 3 个 (LOAD_CONST、MAKE_FUNCTION、STORE_NAME)》 
指令 序列 对 ， 每 个 指令 序列 都 会 创建 一 个 与 类 中 成 员 函 数 对 应 的 ByFunctionobject 对 
象 , 并 将 函数 名 和 其 对 应 的 PyFunctionobject 对 象 通过 sTORE_NAME 存 入 到 iocal 名 字 
空间 中 。 

到 了 这 时 ， 回 头 看 一 看 ， 这 一 路 下 来 ， 我 们 好 像 创建 了 很 多 东西 。 冷 静 一 下 ， 想 一 想 ， 
到 目前 为 止 创建 的 有 用 的 东西 都 被 放 到 了 local 名 宇 空间 中 , 这 里 面 存放 的 恰恰 是 最 重要 
的 东西 一 一 class A 的 元 信息 。 

更 准确 地 说 ， 现 在 local 名 字 空 间 中 存放 的 应 该 是 class A 的 动态 元 信息 ， 婚 然 有 
了 动态 元 信息 ， 那 么 必然 会 有 静态 元 信息 。 关 于 动态 元 信息 和 静态 元 信息 的 区 别 ， 我们 将 
在 后 面 给 出 。 想 象 一 下 ， 当 你 在 class A 中 寻找 £ 时 ， 这 个 f 对 应 的 究竟 是 阿 猫 ， 还 基 阿 
狗 昵 ?只 有 有 了 这 个 1ocal 名 字 空 间 ， 才 能 知道 ， 这 个 上 对 应 的 竟然 是 一 个 函数 。 

好 了 ， 现 在 我 们 手心 里 捏 着 class a 的 动态 元 信息 ， 但 不 对 蚜 ， 我 们 要 的 应 该 是 一 个 
与 A 对 应 的 class 对 象 呀 .难道 说 现在 所 使 用 到 的 pyrrameobject 对 象 就 是 代表 class a 
的 class 对 象 吗 ? 看 上 去 好 像 不 太 对 劲 啊 ， 别 着 急 ， 中 国有 名 老话 ,“ 退 一 步 海阔天空 "。 
现在 ， 我 们 开始 向 后 退 ， 一 直 要 退 到 我 们 出 发 的 地 方 ， 还 记得 吗 ? 就 是 那个 class_0.py 的 
PyCodeObject 对 象 中 的 “15 CALE_FUNCTION 0 指令。 但 是 在 后 退 之 前 ， 我 们 要 顺手 
牵 羊 ， 将 好 不 容易 得 来 的 class A 的 动态 元 信息 ， 也 就 是 当前 pyFrameobject 中 的 
f_locals 带 走 。 徐 志摩 是 不 带 走 一 片 云彩 的 ， 但 是 我 们 必须 把 local 名 字 空 间 带 走 ， 否 
则 ， 以 后 只 能 喝 西 北 风 了 。 


一 
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CALL_FUNCtION 将 接 过 这 个 惊险 的 长 传 ， 然 后 将 E_locais 压 入 到 运行 时 栈 中 ， 现 在 
的 运行 时 栈 如 图 12-18 所 示 : 












<< dict >>(f locals) 


图 12-18 CALL_FUNCTION 指令 完成 后 的 运行 时 栈 
我 们 可 以 在 cALL_FUNCTION 的 实现 代码 中 添加 打印 pyDictobject 对 象 的 代码 ， 以 


Rk 









d = {1:"Robert', 2:"'Ppython’) 
def f(self): 
pass 
def gl(seilf, value): 
LAS 









============== Object x in CALL FUNCTION = 二 二 二 == 二 | 
二 

hodule :maino 

ad» 11; "Robert’, 2: Python"} 
yg : <function g at 0x00DC6430> 
f ; <function £ at Dx00DB3380> 


12-19 ”探测 CALL_FUNCION 指令 代码 中 的 x 






12.3.1.2 metaclass 
在 成 功 地 获得 了 class a 的 动态 元 信 息 之 后 ，cALL_FUNCTION 的 使 命 也 结束 了 ， 随 
后 ,指令 “18 BUILD_cLASS” 开 始 被 激活 ， Python 执行 引擎 从 现在 开始 正式 进入 创建 class 
对 象 的 动作 : 
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对 照 图 12-18，u、v、w 分 别 是 什么 对 象 ， 现 在 已 经 很 清晰 了 。 在 获得 了 class 动态 
元 信息 (也 就 是 class 的 属性 表 啦 )、class 名 称 和 class 基 类 列表 之 后 ，Python 虚拟 机 
会 调用 builad_class 创建 class 对 象 ， 然 后 将 创建 的 class 对 象 压 入 到 运行 时 栈 中 。 
需要 特别 注意 的 是 ， 在 STACKADJ1=2) 之 后 ， 栈 顶 指针 已 经 向 上 移动 了 两 个 位 署 ， 这 
样 ，sgrm_rmoP 就 会 将 创建 的 class 对 和 象 放 入 到 原来 运行 时 栈 中 存储 表示 class 名 称 的 
PyStrirgobject 对 象 “a” 的 位 置 上 ， 而 最 后 的 3 个 pgy_DECREF 保证 了 这 种 操作 的 安全 
性 。 在 BUILD_cLass 之 后 ， 运 行 时 栈 的 情形 如 图 12-20 所 示 ; 
<class A> | 
[AB i 
ED 
Tn 
图 12-20 BUILD_CLASS 指令 结束 后 的 运行 时 栈 
在 BUILD_CLASS 指令 结束 后 ,会 通过 "19 stORE_NAME 1” 指 令 将 (“A”，<class A>) 
存放 到 local 名 字 空 间 中 。 到 此 ， 符号 a 与 其 对 应 的 class 对 象 之 间 的 联系 已 经 完全 建 
立 起 来 了 ， Python 虚拟 机 在 以 后 的 执行 中 可 以 正常 地 使 用 这 个 符号 了 。 这 里 我 们 所 谐 的 
“使 用 符号 A”， 咽 ， 没 错 ， 就 是 将 <class A> 这 个 class 对 象 实例 化 ， 创 建 instance 对 
象 。 不 过 对 创建 instance 对 象 的 剖析 将 留 到 下 一 节 中 。 现 在 我 们 还 是 回 过 头 来 看 看 邦 个 
神秘 的 build_class。 在 biiila_class 中 究竟 发 生 了 什么 呢 ? Python 又 是 用 怎样 一 个 对 
象 来 表示 class 的 呢 ? 别 急 ， 我 们 马上 就 进入 buila_class 中 。 


12.3.1.2.1 获得 metaclass 
代码 清单 12-3 
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在 前 面 ，Python 虚拟 机 获得 了 关于 class 的 属性 表 《动态 元 信息 )， 在 build_class 
中 ， 这 个 动态 元 信息 作为 methods 出 现在 了 参数 列表 中 。 有 一 点 值得 注意 的 是 ，methods 
中 并 没有 包含 所 有 的 关于 class 的 元 信息 ， 在 methods 中 ， 只 包含 了 在 class 中 包含 什 
么 属性 ， 什 么 方法 。 由 于 从 广义 上 来 讲 ， 方 法 也 是 一 种 属性 ， 所 以 我 们 可 以 说 ，class 的 
动态 元 信息 中 包含 了 class 的 所 有 属性 。 


但 是 ， 对 于 这 个 class 对 象 的 type 是 什么 ， 应 该 如 何 创建 ， 要 分 配 多 少 内 存 ， 却 没 
有 任何 的 信 各。 在 build_class 中 ,metaclass 正 是 关于 class 对 象 的 另 一 部 分 元 信息 ， 
我 们 称 之 为 静态 元 信息 ， 也 就 是 在 图 12-3 中 需要 放 到 最 左 侧 的 metaclass 对 象 。 在 静态 
元 信息 中 ,隐藏 着 所 有 的 class 对 和 象 应 该 如 何 创 建 的 信息 ， 注意， 我们 这 里 说 地 是 所 有 的 
class 对 象 。 


在 build_class 中 ， 实 际 上 包含 了 为 classic class 和 new style class 确定 metaclass 
的 过 程 ， 当 然 这 里 我 们 只 考虑 为 new style class 确定 metaclass 的 过 程 。 


首先 ，Python 虚拟 机 在 代码 清单 12-3 的 [处 会 检查 用 户 在 定义 class 时 是 否 指定 了 
__ metaclass__; 如 果 指 定 了 ， 当然 就 使 用 用 户 自己 指定 的 metaclass。 


如 果 用 户 没有 指定 ,那么 Python 虚拟 机 会 选择 class 的 第 一 基 类 的 type 作 为 该 class 


的 mietaclaEss。 


对 于 这 里 的 A 来 说 ， 其 第 一 基 类 (事实 上 ，A 只 有 一 个 基 类 )》 为 object， 而 我 们 已 
经 熟悉 object._class_。 = <type 'type'>。 所 以 最 终 获 得 的 metaclass 为 <type 
心 ype'> 这 个 class 对 象 。 


对 于 PyIntobject、Pypictobject 这 些 对 象 ， 其 所 有 的 元 信息 都 包含 在 其 对 应 的 类 
型 对 象 中 。 而 为 什么 关于 一 个 class 对 象 的 所 有 元 信息 不 能 包含 在 mecaclass 中 ， 却 要 
分 离 为 两 部 分 呢 ? 因为 ， 用 户 会 在 ,py 源 文件 中 定义 不 同 的 class， 其 所 包含 的 属性 肯定 
是 不 相同 的 , 这 就 决定 了 只 能 使 用 动态 的 机 制 来 保存 class 的 属性 ， 这 个 元 信息 只 能 是 动 
态 的 ， 所 以 我 们 称 为 动态 元 信息 ， 即 我 们 看 到 的 参数 methods; 而 对 于 所 有 的 class 都 可 
能 共用 的 元 信息 ， 比 如 class 对 象 的 type 和 class 对 象 的 创建 策略 ， 这 些 则 存放 在 了 
class 对 象 的 metaclass 中 。 


pyintobject、PyDictobject 这 些 对 象 是 Python 静态 提供 的 ， 它 们 都 具有 相同 的 接 
口 集合 ， 当 然 ， 有 的 对 象 可 能 是 不 支持 某 个 接口 的 ， 但 这 不 影响 它们 的 所 有 元 信息 可 以 完 


Python 泌 码 前 匠 一 一 深 民 可 划 动态 党 言 天 心 失 闪 
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全 存储 在 其 类 型 对 象 中 ， 而 用 户 自 定义 的 class 对 象 ， 其 接口 集合 是 动态 的 ， 不 可 能 在 
metaclass 中 静态 地 指定 。 图 12-21 展示 了 多 个 class 对 象 和 元 信息 的 关系 。 





图 12-21 class 对 象 与 元 信息 之 间 的 关系 


12.3.1.2.2 调用 metaclass 


获得 了 metaclass 之 后 ;build_ciass 通过 pyobject_callFunctionobjargs 函数 
完成 “调用 metaclass” 的 动作 ， 从 而 完成 class 对 象 的 创建 ， 


传递 到 pyobject_callFunctionobjargs 中 的 对 象 是 <type “type'> (也 就 是 
PyType_Type), 而 PyType_Type 作为 metaclass 的 功能 正 是 通过 它 的 可 调用 性 体现 出 来 
的 。 换 名 话说， 我 们 调用 一 个 函数 ， 得 到 一 些 输出 ， 同 样 ， 我 们 调用 pyType_Type， 得 到 
一 个 class 对 象 。 


现在 问题 来 了 ， 一 个 Python 程序 中 class 可 能 成 千 上 万 ,而 PyType_Type 却 具 有 一 
个 ， 这 一 个 pyType_Type 如 何 创建 出 不 同 的 class 对 象 呢 ? 其 中 的 奥妙 则 集中 在 
Byobject_callFunctionobjargs 的 其 他 几 个 参数 中 。 我 们 已 经 知道 ， 这 几 个 参数 分 别 是 
class 的 类 名 、 基 类 列表 和 属性 列表 ， 在 pyobject_callFunctionobjArgs 中 ， 这 儿 个 
参数 会 被 打包 到 一 个 tuple 对 象 中 ， 最 终 进 入 pyobject_call 函数 。 好 了 ， 现 在 我 们 开 
始 进入 创建 class 对 象 的 幽深 处 ; 


P| Pp 
-Pe 了 






a | 


最 终 ， 由 于 PyType._Type 的 ob_type 还 是 指向 PyType_Type， 所 以 最 终 将 调用 到 
PyType_Type 中 定义 的 tp_call 操作 。 下 面 来 看 一 看 pyTybe_type 的 tp_ca1ll 操作 ; 
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pyType_Type 中 的 tp_new 指向 type_new 而 这 个 type_new 才 是 class 对 象 创建 从 
第 一 案 发 现场 。 由 于 type_new 的 代码 相当 繁杂 ， 所 以 这 里 我 们 做 了 相当 的 简化 ( 
单 14-2)， 有 兴趣 的 读者 请 参考 Python 源码 。 
代码 清单 12-4 
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Python 虚拟 机 首先 会 将 类 名 、 基 类 列表 和 属性 表 从 tuple 对 象 中 解析 出 来 , 然后 会 基 
于 基 类 列表 及 传 入 的 metaclass (参数 metatype) 确定 最 佳 的 metaciass 和 base， 对 
于 我 们 的 A 来 说 ,最 佳 metaclass 为 <type 'type'>, 最 佳 的 base 为 <type 'object'>。 


随后 ，Python 虚拟 机 会 调用 metatype->tp_alioc 尝试 为 所 要 创建 的 与 a 对 应 的 
class 对 象 分 配 内 存 。 这 里 需要 注意 的 是 ， 在 pyType_Type 中 ， 我 们 会 发 现 tp_alloc 为 
NULL， 这 很 奇怪 ， 对 吧 ? 但 是 别 忘 了 ， 之 前 我 们 已 经 提 到 ， 在 Python 进行 初始 化 时 ， 会 
对 所 有 的 内 置 class 对 象 通过 pyrype_Ready 进行 初始 化 ,在 这 个 初始 化 过 程 中 , 有 一 项 . 
动作 就 是 从 基 类 继承 各 种 操作 。 由 于 type.__bases_ 中 的 第 一 基 类 是 <type ‘object'>, 
所 以 <type “type'> 会 继承 <type ‘6bject'> 的 tp_alloc 操作 ， 即 pyType_ 
Generichlloc。 对 于 我 们 的 A 《或 者 说 ， 对 于 任何 继承 自 Object 的 Class 对 象 来 说 ) 
PyType_GenericAlloc 最 终 将 申请 metatype->tp_basicsize + metatype->tp_itemsize 
大 小 的 内 存 空 间 。 从 PyType._Type 的 定义 中 我 们 可 以 看 到 ， 这 个 大 小 实际 上 就 是 sizeof 

(PyHeapTypeobject ) +sizeof (PyMemberpef ) 。 到 这 里 ,有 种 天 开 云 散 见 晴空 的 感觉 了 
吧 ， 当 初 就 觉得 pyHeapTypeobject 这 个 东西 怎么 莫名 其 妙 地 在 Python 中 就 出 现 了 呢 ， 
原来 PyHeapTypeObject 是 为 用 | 定义 的 class 对 象 准备 的 。 

此 后 ， 就 是 设置 <class A> 这 个 class 对 象 的 各 个 域 。 其 中 包括 了 在 tp_aict 上 设置 
了 属性 表 。 需 要 特别 关注 代码 清单 12-4 的 [了 ] 处 ， 这 里 计算 了 与 <class A> 对 应 的 
instance 对 象 的 内 存 大 小 信息 ， 换 名 话说 ， 当 我 们 以 后 通过 a = A() 这 样 的 表达 式 创建 
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一 个 instance 对 象 时 ， 需 要 为 这 个 instance 对 象 申 请 多 大 的 内 存 呢 ? 对 于 A 对 任何 
继承 自 object 的 class 对 象 也 成 立 ) 来 说 ， 这 个 大 小 为 PyBaseObject_Type-> 
tp basiosizeT 8 其 中 的 8 为 2*sizeof (pyObject*) ,为 什么 后 面 要 跟着 两 个 PyObiect* 
的 空间 ， 而 芋 这 些 空间 的 地 址 被 设置 给 了 tp Gictoffset 各 tp weaklistoffset 呢 ? 这 
里 先 不 表 ， 留 待 以 后 详解 。 

最 后 ，Python 虚拟 机 还 会 调用 PyType_Ready 对 zclass B> 进行 和 内 置 ciass 对 象 
一 样 的 初始 化 动作 。 到 此 ，A 对 应 的 class 对 象 正式 创建 完毕 。 和 图 12-22 显示 了 用 户 自 定 
义 的 ciass 对 象 和 内 牌 的 class 对 象 最 终 在 内 存 布 局 上 的 区 别 。 


1 PyNumberMethods 






1:tp ns number 2;tp ns mpping 3:tp as sequence 


图 12-22 ”用 户 自 定义 class 对 象 和 内 置 class 对 象 的 内 存 布局 对 比 


本 质 上 ， 无 论 是 用 户 自 定义 的 class 对 象 还 是 内 置 的 class 对象， 在 Python 虚拟 机 
内 部 ,都 可 以 用 一 个 pyTypeobject 来 表示 。 但 不 同 的 是 ， 内 置 class 对 和 象 的 PyTypeobject 
及 与 其 关联 的 pyNumberMethods 等 的 内 存 位 置 都 是 在 编译 时 确定 的 ， 它们 在 内 存 中 的 位 
置 是 分 腐 的 : 而 用 户 自 定义 的 class 对 象 的 pyTypeobject 和 PyNumberMethods 等 的 内 
存 位 置 是 连续 的 ， 必 须 在 运行 时 动态 申请 内 存 。 

现在 我 们 对 Python 中 “可 调用 callable)” 这 个 概念 应 该 是 有 一 定 的 感性 认识 了 。 在 
Python 中 ， 这 个 概念 实际 上 是 一 个 相当 通用 的 概念 ， 不 拘 对 象 ， 不 拘 大 小 ， 只 要 对 象 定义 
了 to_call 操作 ， 就 能 进行 “调用 ”操作 。 我 们 已 经 看 到 ，Python 中 的 class 对 象 是 “ 调 
用 ”metaclass 对 象 (比如 <type "type'>) 创建 的 。 如 果 按 照 这 个 逻辑 小 小 地 向 前 推 
测 一 步 ， 那 么 调用 class 对 象 ， 是 不 是 就 能 得 到 instance 对 象 呢 ? 欲 知 后 事 如 何 ， 且 听 
下 节 分 解 仿 。 


12.4 ”从 class 对象 到 instance 对 象 


哩 ， 朋 友 ， 现 在 是 不 是 已 经 尖 脑 发 张 ， 两 眼 发 沸 了 ? 前 面 罗 罗 哈 只 说 了 几 十 页 ， 这 个 
class 机 制 到 底 何 时 到 头 啊 ? 这 里 ， 我 有 一 个 坏 消息 ， 一 个 好 消息 。 


Python 源码 曾 匠 一 一 深度 各 策 形态 证 膏 茂 心 开 不 
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坏 消息 是 ， 很 不 幸 ， 我 们 费 尽 千 辛 万 车， 创建 了 ciass 对 象 ， 仅 仅 是 万 里 长 征 走 完 了 
第 一 步 。 当 Python 虚拟 机 执行 时 , 在 内 存 中 叱 喧 风 云 的 是 一 个 个 instance 对 象 , 而 class 
对 象 只 是 幕后 英雄 。 

好 消息 是 我 们 到 了 一 个 关键 的 转折 点 ， 在 本 节 中 ,我 们 来 看 看 从 class 对 象 出 发 ， 创 
建 instance 对 象 的 工作 是 如 何 完成 的 。 同 时 ， 从 这 里 往 后 ， 路 会 一 马 平川 ， 不 像 之 前 的 
内 容 那 样 摧残 大 脑 @。 


在 class_0.py 中 ， 创 建 instance 的 动作 如 下 : 
[PyCodeObject for class 0.py] 





在 此 节 我 们 看 到 ， 在 创建 class 对 象 的 最 后 ，Python FRR 19 
STORE_NAME TI” 将 刚刚 创建 的 class 对 象 存放 到 了 locai 名 字 空 间 中 ， 所 以 指令 “22 
LOAD_NRME TI” 会 重新 将 这 个 class 对 象 从 local 名 字 空 间 取出 ， 压 入 到 运行 时 栈 中 。 显 
然 ， 从 字 节 码 序列 中 可 见 ，Python 将 通过 执行 “25 caLL_FUNCTION 0” 指 令 来 创建 一 个 
instance, 这 与 我 们 在 上 一 节 结 束 时 的 猜测 是 吻合 的 ， 即 “调用 class 对 象 将 创建 
instance 对 象 "”。 Python 执行 引擎 在 创建 了 instance 对 象 之 后 ， 会 通过 指令 “28 
STORE_NAME 2” 将 ta，instance) 存 放 到 local 名 字 空 间 中 ， 所 以 ， 在 这 段 字 节 码 指令 
序列 完成 之 后 ，1ocal 名 字 空 间 如 图 12-23 所 示 : 





图 12-23 创建 证 生计 对 入 后 的 所 local al 名 字 空 间 


在 caLL_FUNCTION 中 ，Python 同样 会 沿 着 call_function->do_call-5py0bject_ 
call 的 调用 路 答 进 入 到 pyobject_call 中 。 前 面 说 过 ， 所 谓 “ 调 用 ”， 就 是 执行 对 象 的 
tybe 所 对 应 的 class 对 象 的 tp_call 操作 。 所 以 ,在 pyobject_call，Python 执行 引擎 
会 寻找 class 对 象 <class A> 的 type 中 定义 的 tp_call 操作 ,<class a3 的 tyve 为 <type 
‘type'>， 所 以 最 终 将 调用 tp_call, 在 pyType_Type.tp_call 中 又 调用 了 A.tp_niew 
是 用 来 创建 instance 对 象 的 。 


这 里 需要 特别 注意 ,在 创建 <class A> 这 个 class 对 象 时 ,Python 虚拟 机 调用 ByType_ 
Ready 对 <class A> 进 行 了 初始 化 ， 其 中 的 一 项 动作 就 是 继承 基 类 的 操作 ， 所 以 .tp_new 
实际 上 也 就 是 object .tp_new; 在 pyBaseObiject_Type 中 ， 这 个 操作 被 定义 为 object_ 
new。 创 建 class 对 象 和 创建 instance 对 和 象 的 不 同 之 处 正 是 在 于 tp_new 不 同 , 创 建 class 
对 象 ，Python 碰 拟 机 使 用 的 是 type_new; 而 对 于 instance 对 象 ，Python 虚拟 机 则 使 用 


obhject_news 


Python 着 三 则 折 一 一 演 属 荣 舌 动 丰 莫言 懂 涂 花 状 
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在 object_new 中 ， 调用 了 A.tp_alloc,; 这 个 操作 也 是 从 object 继承 而 来 的 ， 是 
pyType_GenericAlloc。 前 面 我 们 已 经 提 到 ，PyType_SenericAlloc 最 终 将 申请 
A.tp basicsize + A.tp_ itemsize 大 小 的 内 存 空间 。 上 一 节 中 ; 这 两 个 量 的 计算 结 果 
为 A.tp_basicsize = PyBaseObiject._Type.tp_basicsize + 8 = sizeof (PyObject) 
+8=24; A.tp, itemsize = PyBaseObject_Type.tp_itemsize = 0» 原来 ，object_new 
的 所 有 工作 就 是 申请 了 一 个 24 字 节 的 内 存 空间 。 

在 申请 了 24 字 节 的 内 存 空间 ， 回 到 type_call 之 后 ， 由 于 创建 的 不 是 caass 对 象 ， 
而 是 instance 对 象 ，type_call 会 尝试 进行 初始 化 的 动作 。 






对 于 基于 <class A> 创 建 的 instance 对 象 obj， 其 ob_type 当然 也 在 ByType_ 
GenericAlloc 中 被 设置 为 指向 <class A>; 其 tp_init 在 PyType_Ready 时 会 继承 
pyBase0bject_Type 的 Object_ init 操作 ， 但 正如 在 本 章 2.3.3 节 中 描述 的 那样 ， 因为 A 
的 定义 中 重 写 了 __init_， 所 以 在 fixup_slot_dispatchers 中 ，tp_init 会 指向 
slotdefs 中 指定 的 与 “_init ”对 应 的 slot_tp_init: 





在 执行 slot_tp_init 时 ，Python 虚拟 机 会 首先 通过 lookup_method 在 ,class 对 象 
及 其 mro 列表 中 搜索 属性 “~_init_ ”对 应 的 操作 ， 然 后 通过 Pyobject_call 调用 该 操 
作 。 属 性 搜索 是 一 个 以 后 会 剖析 的 独立 主题 ， 这 里 先 按 下 不 表 。 如 果 你 在 定义 class 时 ， 
重 写 了 _init_ 操作， 那么 搜索 的 结果 就 是 你 写 的 操作 , 如 果 没 有 重 写 ， 那 么 最 终 的 结果 
将 是 调用 opject_init， 在 object_init 中 ，Python 虚拟 机 什么 也 不 做 ， 直 接 返 回 ， 所 
以 ， 当 我 们 通过 a = A() 创 建 一 个 instance 对 象 时 ， 实际 上 是 没有 进行 任何 初始 化 的 动 
作 ， 


到 了 这 里 ， 我 们 可 以 小 结 一 下 ， 从 class 对 象 创建 instance 对 象 的 两 个 步 又; 
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> instance = class. pew_ (class, args, kwds) 
> cilass. init (instance, args, kwds) 

其 中 , args 为 一 个 tuple 对 象 , 里 面包 含 着 创建 instance 对 象 的 各 种 参数 , 而 kwas 
通常 为 NULL。 需要 特别 注意 的 是 ， 这 两 个 步骤 也 适用 于 从 metaclass 对 和 象 创建 class 对 
象 。 从 metaclass 对 象 创建 class 对 象 的 过 程 也 是 一 个 从 class 对 象 创建 instanice 对 
象 的 过 程 ， 前 面 我 们 就 已 经 提 过 ，class 对 和 象 具有 二 相 性 。 


12.5 访问 instance 对 象 中 的 属性 


在 前 面 的 章节 我 们 讨论 名 字 空 间 时 就 提 到 ， 在 Python 中 ， 形 如 x.y 或 x.y(1) 形 式 的 
表达 式 称 为 “属性 引用 ”， 其 中 x 为 对 象 ， 而 y 为 对 象 的 属性 ， 这 个 属性 ， 有 可 能 只 是 简 
单 的 数据 ， 比 如 字符 串 或 整数 ， 当 然 ， 也 有 可 能 是 成 员 函 数 这 类 比较 复杂 的 东西 ， 





在 class_0.py 中 ， 我 们 一 共 调 用 了 两 个 class a 的 成 员 函 数 ， 一 个 是 不 需要 参数 的 成 
员 函 数 ， 而 另 一 个 是 需要 参数 的 成 员 函 数 。 这 里 ， 我 们 先 来 看 看 ， 对 于 不 需要 参数 的 成 员 
函数 ， 其 调用 过 程 是 怎样 的 ; 


Cs 
< 













Python 虚拟 机 通过 指令 “31 LoaAD_NAME 1”， 会 将 local 名 字 空 间 中 符号 “a” 对 应 
的 instance 对 象 压 入 到 运行 时 栈 中 。 随 后 的 指令 “34 LOAD_ATTR2” 是 属性 访问 机 制 的 
关键 所 在 ， 它 会 从 <instance a> 中 获得 与 符号 “E” 对 应 的 对 象 ， 还 能 想起 是 个 什么 对 象 
吗 ? 没 错 ， 是 一 个 ByFunctionopject 对 象 : 


WS 
‘db 
a 







t SE me pix 


其 中 w 为 Pystringobject 对 和 象 “E”， 而 v 为 运行 时 栈 中 的 那个 instance 对 象 
<instance as， 从 <instance a> 中 获得 “f£f” 对 应 对 象 的 关键 就 在 PyoObject GetAttr 
身上 ( 见 代 码 清单 12-5)。 


代码 清单 12-5 


Ns 
Pa 
Fy 
Mm 
> 






Python 涛 枉 芭 新 一 一 深 居 或 策动 本 语 膏 共 心 共 枯 


12.5 访问 instance 对 象 中 的 属性 ” 窗 297 





在 Python 的 class 对 象 中 ， 定 义 了 两 个 与 访问 属性 相关 的 操作 : tp_getattro 和 
tp_getattr。 其 中 的 tp_getattro 是 首选 的 属性 访问 操作 ， 而 tp_getattr 在 Python 中 
已 不 再 推荐 使 用 。 它 们 之 间 的 区 别 其 实在 pyobject_Getattr 中 已 显示 得 非常 清楚 ， 主 要 
是 在 属性 名 的 使 用 上 ，tp_getattro 所 使 用 的 属性 名 必须 是 一 个 pystringObject 对 象 ， 
而 tp_getattr 使 用 的 属性 名 必须 是 一 个 C 中 的 原生 字符 串 。 如 果 某 个 类 型 同时 定义 了 
tp_getattr 和 tp_getattro 两 种 属性 访问 操作 ， 那 么 pyobject_GetAttr 将 优先 使 用 
tp_getattro 操作 。 


在 Python 虚拟 机 创建 <class a> 时 ， 会 从 pyBaseobjsct_mType 中 继承 其 tp_ 
getattro 一 一 PyObject_GenericGetAttr。 所 以 Python 虚拟 机 在 这 里 会 进入 Pyobjiect_ 


CeriericOetAttrs 


在 PyObject_ GenericGetAttr 中 日 有 一 套 复 杂 地 确定 访问 的 属性 的 算法 ， 下 面 我 们 
以 af 为 例 ， 用 Python 伪 代 码 来 描述 这 个 属性 访问 算法 (由 于 这 里 涉及 到 了 aescripcor， 
就 云 开 雾 散 了 )， 
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我 们 通过 一 段 代码 来 验证 这 个 伪 代 码 描述 的 算法 ; 













很 不 率 的 是 ， 你 会 发 现 输出 的 结果 为 1， 看 上 去 上 面 伪 代 码 描述 的 算法 不 对 呀 。 实 际 
上 ,在 那 段 伪 代 码 中 ， 有 一 个 关键 的 概念 一 -aescriptor。 在 一 个 class 中， 并 不 是 随意 
定义 一 个 函数 就 是 aescriptor 了 ， 所 以 导致 输出 结果 为 1。 那 么 究竟 什么 才 是 Gescriptor 
呢 ， 稍 等 片刻 ， 谜 底 一 会 就 能 揭 并 了 。 


12.5.1 instance 对 象 中 的 _ dict 


在 属性 访问 算法 中 ， 我 们 看 到 有 “a,_ dict_” 这 样 的 形式 。 这 一 点 相当 奇怪 了 ， 
在 第 12.4 节 的 描述 中 ， 我 们 看 到 ， 从 <class A> 创 建 <instance a> 时 ， Python 虚拟 机 仅 
仅 是 为 s 申请 了 16 字 节 的 内 存 ， 并 没有 额外 的 创建 PyDictobject 对 象 的 动作 呀 。 不 过 
在 <instance a> 中 ,24 个 字 节 的 前 8 个 字 节 是 ByObject, 后 8 个 字 节 是 为 两 个 pyobject* 
申请 的 ， 难 道 谜底 就 在 这 多 出 的 这 两 个 pyobject* 中 ? 

在 创建 <class a> 时， 我 们 曾 说 到 ， Python 虚拟 机 设置 了 一 个 名 为 tp_aictortset 
的 域 ， 从 名 字 上 推断 ， 这 个 可 能 就 是 instance 对 象 中 _aict__ 的 偏 移 位 置 。 在 图 12.24 
中 ， 我 们 展示 了 我 们 的 猜想 。 





图 12-24 猜想 中 的 a_ dict 
图 12-24 中 ， 虚 线 画 出 的 ,aics 对 象 就 是 我 们 期 望 中 的 a._aict _。 这 个 猜想 可 以 在 


PyYObject_GenericGetAttr 中 与 伪 代 码 中 对 应 的 C 代码 得 到 证 实 ; 
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如 果 ai ctoffset 小 于 0， 意味 着 A 是 继承 自 str 这 样 的 变 长 对 象 ， Python 虚拟 机 会 
对 dictoffset 进行 一 些 处 理 ， 最 终 仍然 会 使 dictofEset 指向 a 的 内 存 中 额外 申请 的 位 
器 。 而 PyObject_GenericGetAttzr 正 是 根据 这 个 aictoffset 获得 了 一 个 dict 对 象 。 


更 进一步 ， 查 看 函数 g 中 有 设置 self .valus 的 代码 ， 这 个 instance 对 象 的 属性 设 
警 动作 也 会 访问 a._aict _， 而 且 ， 这 个 设 秆 动作 最 终 调 用 的 Byopbject_Genaric- 
SetrAttr 也 是 a, dict_ 最 初 被 创建 的 地 方 : 


i 
[Lon 
L000 
sy 证 ， 






其 中 _Pyobject_Getpictptr 的 代码 就 是 pyopject_GenericGetatktr 中 根据 
dictoffset 获得 aict 对 象 的 那 段 代码 。 


12.5.2 再 论 descriptor 





在 伪 代 码 中 ， 出 现 了 “aescriptor” 这 个 命名 其 实 是 有 意 为 之 的 ， 目 的 是 为 了 唤起 
读者 对 前 面 描 述 过 的 descriptor 的 回忆 。 前 面 我 们 看 到 ， 在 PyType_Ready 中 ，Python 
虚拟 机 会 填充 tp_aict， 其 中 与 操作 名 对 应 的 是 一 个 个 daescriptor， 那 时 我 们 看 到 的 是 
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descriptor 这 个 概念 在 Python 内 部 是 如 何 实现 的 。 现 在 我 们 将 要 剂 析 的 是 descriptor 
在 Python 的 类 机 制 中 究竟 会 起 到 怎样 的 作用 。 


在 Python 虚拟 机 对 class 对 象 或 instance 对 象 进行 属性 访问 时 ，dGescriptor 将 对 
属性 访问 的 行为 产生 重大 的 影响 。 一 般 而 言 , 对 于 一 个 Python 中 的 对 象 obj, 如 果 obj.__ 
class_ 对 应 的 class 对 象 中 存在 _get 、__set 和 delete 三 种 操作 ， 那 么 obj 
就 可 称 为 Python 一 个 asscriptor。 在 slotdefs 中 ， 我 们 会 看 到 _get_、__set_、 
_delete_ 对 应 的 操作 


~ Wt 
ar "js | & 条 
一 EC EC 0 1 = 
1 
忆 









前 面 我 们 看 到 了 PEywrapperDescrobject、PyMethodDescrobject 等 对 象 ， 它 们 对 
应 的 class 对 象 中 分 别 为 tp_descr_get 设置 了 wrapperdescr_get、method_get 等 函 
数 ， 所 以 它们 绝对 是 当之无愧 的 descriptor。 

如 果 细 分 ， 那 么 descriptor 还 可 分 为 如 下 两 种 : 

data Gescriptor : type 中 定义 了 __get_ 和 ， set_ 的 descriptor; 
> non data descriptor : type 中 内 定义 了 _get 的 descriptors 

在 Python 虚拟 机 访问 instance 对象 的 属性 时 ,descriptor 的 一 个 作用 是 影响 Python 
虚拟 机 对 属性 的 选择 。 从 pyobject_GenericGetattr 的 伪 代 码 亲 以 看 出 ，Python 虚拟 机 
会 在 instance 对 象 自身 的 _aicet__ 中 寻找 属性 , 也 会 在 instance 对 象 对 应 的 class 对 
象 的 mro 列表 中 寻找 属性 ， 我 们 将 前 一 种 属性 称 为 tnstance 属性 ， 而 后 一 种 属性 称 为 
class 属性 。 

虽然 evobject_GenericGeEattr 里 对 属性 进行 选择 的 算法 比较 复杂 ， 但 是 从 最 终 的 
效果 上 ， 我 们 可 以 总 结 出 如 下 的 两 条 规则 : 
> ”Pythor 虑 拟 机 按照 iascance 属性 、class 属性 的 顺序 选择 属性 ， 即 instance 属性 

优先 于 class 属性 ; 
> 如果 在 class 属性 中 发 现 同名 的 Gata descriptor， 那 么 该 descriptor 会 优先 于 

inscance 属性 被 Python 虚拟 机 选择 。 

这 两 条 规则 在 对 属性 进行 设置 时 仍然 会 被 严格 遵守 , 换 句 话说 , 如 果 执 行 “a.value = 
1”， 就 算 在 A 中 发 现 一 个 名 为 “value” 的 no data descriptor， 那 么 还 是 会 设置 
a._ dict {value] = 1， 而 不 会 设置 A 中 已 有 的 value 属性 。 
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当 最 终 获 得 的 属性 是 一 个 descriptor 时 ， 最 奇妙 的 事 发 生 了 ，Python 虚拟 机 不 是 简 
单 地 返回 descriptor， 而 是 如 伪 代 码 所 示 的 那样 ， 调 用 descriptor._ get__ ， 将 调用 
的 缚 党 二 人 在 下 面 的 图 12-25 中 ， 展 示 了 descriptor 对 属性 访问 行为 的 影响 。 


et rs bx c15): 
< at 


iwa B(obijact): 


value = A(l) 二 -一 《3815 obj, cs): 


restuen ‘AK. .Jet 
te EDA obj, Value) : 
A. A 


>>> b = BN se1f. sppend (valtie} 


>>> bb.vAaAlue 
EE 

>>> 要 wv bvalue 
>>> Typ (39] 
<type "str'> 


descriptaor 改 变 扣 回信 


“nnd Blobject): 
Yalua = A() 





»>> b= B00) 
»>> bvalvs =“ 1 
> Tiasy TBT I 内.。 “当知 多 

= = obj， cl1s55 p> bs dict lt'value')} 
A. Yat 

ceback (most revont coll lst): 
File "pystellisi0l>", line 1, in woule> 

dict [valuse") 
: waluo" 
dict TvALHE 


» Blobiecty: 
valuvue = AT) 





>>> by = BI() 
DC data descriptor 优 先 于 instance 属 性 
»>> bs dict VS 
> hb. Class .dict {value’') 
[1 

instance 履 性 优先 于 non data descriptor 


12-25 ”descriptor 对 属性 访问 行为 的 影响 


有 趣 的 是 ， 如 果 我 们 在 class_0,py 中 加 入 “print A.name” 这 样 访问 class 对 象 的 属 
性 的 表达 式 时 ，Python 虚拟 机 同样 会 为 这 个 表达 式 编译 出 包含 LOAD_AT'TR 指令 的 字 节 码 
序列 ， 但 不 同 的 是 ， 在 pyobject_Getattr 中 ， 最 终 会 调用 type_getattro， 而 非 
pyobject_GenericGetAttr。 其 实 两 者 的 算法 都 是 类 似 的 ， 上 面 所 描述 的 所 有 结论 都 适 
合 于 type_getattros 但 是 怎么 理解 type_getattro 中 的 “inscance 属性 ”了 昵 ? 很 简单 ， 
所 有 的 class 对 每 都 是 metaclass 对 象 创建 的 ， 也 就 是 metaclass 的 instance， 所 以 ， 
对 于 class 对 象 而 言 ,“instance 属性 ”这 个 说 法 也 是 非常 自然 的 ， 就 是 class 对 象 目 
身 的 tp_dicE 中 存储 的 属性 。 


前 面 我 们 说 当 访问 的 属性 最 终 对 应 的 是 一 个 descriptor 时 , 会 调用 其 _get 方法， 
并 将 _get _ 的 结果 作为 属性 的 值 返回 。 其 实 这 个 说 法 不 是 完全 正确 的 。 仔 细 对 比 
type. getattro 和 PyObiect GenericGetaAttr 的 代码 ， 我 们 会 发 现 它们 在 如 何 对待 
descriptor 的 一 个 细节 上 存在 着 差异 。 在 PyObject_GenericGetAttr 中 ， 如 果 查 询 到 
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的 descriptor 是 instance 属性 ， 那么 不 会 调用 其 get_ 方法 ; 而 在 type detattro 
中 ， 即 使 查询 到 的 aescriptor 是 “instcance 属性 ”， 也 会 调用 其 _ get_ 方 法。 这样 的 
区 别 可 以 用 一 句 话 来 总 结 : 如 果 待 访问 的 属性 是 一 个 descriptor， 若 它 存在 于 class 对 
象 的 tp_dict 中 ,会 调用 其 _get 方法 ; 车 它 存在 于 instance 对 象 的 cp_aict 中 ， 则 

会 调用 其 _get 方法 。 在 图 12-26 中 给 出 了 这 条 规则 的 一 个 例子 。 有 兴趣 的 读者 可 以 
过 踪 一 下 type_gstattro 源 码 中 的 行为 。 


Lns A t}s 
= eg sd C13): 


ma Stoblect): 
deac in class = A{} 


>>> BB.desc in class 


bor > 
he b = B() .条 在 clasx 对 象 的 tpP_dict 中 的 descrlptor 
>>> bdesc in ciasy.” 
python’ 
>>> hdesc In ngtance = AA) 
>>> bdeac in Linatance ~--* 在 instance 对 兽 的 tp_ dict 中 的 descriptor 
< .A object nt Ux00pCc0D707> 


图 12-26 instance 对 象 和 class 对 象 中 descriptor 的 不 同行 为 


到 这 里 ， 我 们 已 经 看 到 ，descriptor 对 属性 访问 的 影响 主要 在 两 个 方面 : 其 一 是 对 
访问 顺序 的 影响 ， 其 二 是 对 访问 结果 的 影响 。 第 二 种 影响 正 是 类 的 成 员 函 数 调用 的 关键 。 





12.5.3 ”函数 变 身 


在 前 面 讨论 创建 <instance A> 时 ,我们 看 到 ， 在 A._6ict_ 中， 保存 了 一 个 与 符 
号 “fy” 对 应 的 PyFunctionopject 对 银 ， 所 以 在 伪 代 码 中 的 Gescriptor 对 应 的 就 是 一 
个 byFunccionobject 对 象 。 先 抛 开 伪 代 码 中 确定 报 终 返 回 值 的 过 程 不 说 ， 我 们 从 另 一 个 
角度 来 看 一 看 ， 假 设 pyrunctionobject 作为 LOAD_AT'TR 的 最 终结 果 ， 在 LOxD_aTTR 指 
令 代码 的 最 后 被 SET_TOoP 压 入 到 了 运行 时 栈 中 ， 那 么 会 有 什么 后 果 昵 ? 


在 A 的 成 员 函 数 £ 的 Gef 语句 中 ， 我 们 分 明 看 到 一 个 selE 参数 ，selE 在 Python 中 
是 不 是 一 个 真正 有 效 的 参数 呢 ? 还 是 它 仅 仅 是 一 个 语法 意义 上 的 占 位 符 而 已 ? 这 一 点 可 
以 从 函数 g 中 看 到 答案 ， 在 g 中 有 这 样 的 语句 :self .value = avValues。 这 条 语句 党 无 疑 
问 地 揭示 了 self 确实 应 该 是 一 个 实 实在 在 的 对 象 ， 所 以 表面 上 看 起 来 是 无 参 函数 的 £ 其 
实 是 一 个 货真价实 的 带 参 函数 . 现在 , 问题 来 了 , 根据 我 们 之 前 对 函数 机 制 的 分 析 ，Python 
通常 会 将 参数 事先 压 入 运行 时 栈 中 ， 但 是 从 class_0.py 中 a.E() 语 句 编译 后 的 指令 序列 中 
可 以 看 到 , Python 在 获得 了 a.E 对 应 的 对 和 象 之 后 ,没有 进行 任何 如 普通 函数 调用 一 样 的 参 
数 入 栈 的 动作 ， 而 是 直接 执行 了 cALL_FUNCTION 指令 。 这 里 没有 任何 像 参数 的 东西 在 栈 
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中 ， 栈 中 只 有 一 个 我 们 认为 是 pyFunctionobject 对 象 的 a.E 的 返回 结果 ， 这 个 遗失 的 
self 参数 究竟 在 什么 地 方 呢 ? 

好 了 ， 爱 因 斯 坦 说 ， 为 了 相对 论 ， 我 们 必须 抛弃 绝对 时 空 的 观念 ， 现 在 ， 为 了 能 让 = 
确实 能 得 到 一 个 参数 ， 我们 必须 抛弃 pyFuricEionobjsct 是 返回 结果 的 假设 ， 它 只 能 是 另 
一 种 我 们 现在 为 止 还 不 知道 的 全 新 的 对 象 。 由 于 是 通过 访问 属性 “E” 得 到 的 这 个 对 象 ， 
所 以 一 个 合理 的 假设 是 ， 在 这 个 对 象 中 ， 包 含 了 “E” 对 应 的 那个 pyFunctionobject 对 
象 ， 另 一 个 更 合理 的 假设 是 ， 在 这 个 对 象 中 ， 还 包含 了 函数 的 参数 : self， 


为 了 能 看 清 这 个 全 新 的 神秘 对 象 究竟 是 谁 ， 让 我 们 回 到 伪 代 码 中 来 。 在 第 11 章 对 函 
数 机 制 的 剖析 中 ， 我 们 对 PyFunctionobject 似乎 已 经 了 如 指 掌 了 。 但 那 时 ,我 们 不 经 意 
间 放 过 了 pyFunctionobject 对 象 对 应 的 class 对 象 一 -pyFunction_mype。 在 这 个 
pyFPunction_Type 中 ， 其 实 隐藏 着 一 个 惊天 大 秘密 。 观 察 pyrunctino_Type， 我 们 会 发 
现 与 ”_get_ ”对 应 的 tp_descr_get 被 设置 成 了 5Eunc_aescr_ger。 这 意味 着 我 们 这 
里 得 到 的 A.f 实际 上 是 一 个 descriptor。 由 于 PyFuncticn_dype 中 并 没有 设置 tp_ 
descr_set， 所 以 A.f 是 一 个 non data descriptor。 此外， 由 于 在 a,_dict_ 中 没有 
符号 “EF” 存在 ， 所 以 根据 伪 代 码 中 的 算法 ， a. 的 返回 值 将 被 descriptor 改变 ， 其 结果 
将 是 人 也 就 是 func_descr get'(A.f, a, A); 






func_descr_get 将 A.f 对 应 的 PyFunctionobject 进行 了 一 番 亿 装 , 通 过 PyMethod_ 
New，Python 虚拟 机 在 pyFunctionobject 的 基础 上 创建 了 一 个 新 的 对 象 ， 到 PyMethod_ 
New 中 一 看 ， 那 个 神秘 的 对 象 现 身 了 : 
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一 切 真 相 大 白 ， 原 来 那个 神秘 的 对 象 就 是 pyMethodobject 对 象 。 看 到 free_list 


这 样 熟悉 的 字眼 , 现在 我 们 立即 可 以 判断 出 , 在 pyMethodobject 的 实现 和 管理 中 , Python 
采用 了 缓冲 池 的 技术 。 现 在 来 看 看 这 个 pyMethodobject;: 


] 
wm 


ot Pr ee 
hh 












在 PyMethod_New 中 ， 分 别 将 im_func，im_self，im_class 设置 了 不 同 的 值 ， 对 应 
的 就 是 “FE ”对 应 的 pyguinctiorobject 对 象 ,“a” 对 应 的 instance 对 和 象 ， 以 及 “ARA” 对 
应 的 class 对 象 。 

在 Python 中 ,将 PyFunctionobject 对 象 和 一 个 instamnce 对 象 通过 Pywechodobject 

对 象 结合 在 一 起 的 过 程 就 称 为 成 员 函 数 的 绑 定 。 下 面 的 图 12-27 清晰 地 展示 了 在 访问 属性 
时 ， 发 生 的 函数 绑 定 的 结果 : 
>>> Class A(oObDJect): 

diet f(self)’: 

pas 





= RGR lr 


<furction f at 8xX00D804F0> 


A obiject at 0X00DC61B0>> 
图 12-27 ”函数 绑 定 的 结果 
12.5.4 无 参 函 数 的 调用 
在 LOAD_ATTR 指令 之 后 ， 指 令 “37 cALL_FUNCTION 0” 开 始 了 函数 调用 的 动作 ， 之 


前 我 们 研究 过 了 对 于 pyFunctioncbject 对 象 的 调用 ， 而 对 于 PyMethodobject 对 象 ， 情 
况 有 些 不 同 ， 见 代码 清单 12-6: 
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代码 清单 12-6 





显然 ， 调 用 成 员 函 数 £ 时 ， 显 式 传 入 的 参数 个 数 为 0， 也 就 是 说 ， 调 用 E 时 ，Python 
虚拟 机 没有 进行 参数 入 栈 的 动作 。 而 £ 显然 又 是 需要 一 个 参数 的 函数 ， 其 参数 为 self， 壕 
是 在 call_function 中 , Python 虚拟 机 为 pyMethodobject 进行 了 一 些 参数 处 理 的 动作 。 
当 Python 妇 拟 机 执行 a.E() 时 ,在 call_function 中 , 代码 清单 12-6 中 [1] 处 的 判断 
会 成 立 ， 其 中 的 PyMethod_GET_sELF 被 定义 为 : 





在 call_function 中 ，Eunc 变量 指向 一 个 pyMethodobjact 对 象 ， 而 在 清单 12-6 中 
[处 的 判断 成 立 后 ， 在 if 分 支 中 又 会 将 PyMethodobject 对 象 中 的 pyFunctianobject 
对 象 和 instance 对 象 分 别提 取出 来 。 在 it 分 支 中 有 一 处 最 重要 的 代码 ; 






还 记得 我 们 在 分 析 函 数 机 制 时 看 到 的 pfunc 的 意义 吗 ? 它 指向 的 位 置 正 是 运行 时 栈 
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中 存放 PyMethodobject 对 象 的 位 置 。 那么 在 这 个 本 来 属于 pyMethodobject 的 地 方 存放 
instance 对 象 究 竟 有 什么 作用 呢 ? 在 这 里 ，Python 虚拟 机 以 另 一 种 方式 完成 了 函数 参数 
入 栈 的 动作 ， 而 这 个 本 来 属于 PyMethoaobject 对 象 的 内 存 空间 现在 被 用 作 了 函数 E 的 


selE 参 数 的 容 身 之 处 。 
我 们 先 来 看 看 图 12-28 所 示 的 运行 call_function 时 运行 时 栈 的 变化 情况 : 
长 才 浊 
I 4 ey NY ar 
emp 一 
a b 


图 12-28 ”设置 self 参数 

图 12-28 中 a 是 设置 pfunc 之 前 的 运行 时 栈 ，b 表示 设置 了 pfunc 之 后 的 运行 时 栈 。 
这 里 似乎 看 不 出 什么 玄妙 之 处 ， 别 急 ， 我 们 继续 前 进 。 

在 call_function 中 , 接着 还 会 通过 pyMethod_GET_FUNCTION 将 pyMethodObject 
对 象 中 的 PyFunctionobject 对 象 提取 出 来 。 随 后 在 call_function 中 的 四 处 〈 见 代码 
清单 12-6)，Python 虚拟 机 完成 了 self 参数 的 入 栈 ， 同 时 还 调整 了 维护 着 参数 信息 的 na 
和 mn， 回忆 一 下 第 11 章 对 Python 函数 机 制 的 分 析 ， 我 们 可 以 发 现 ， 调 整 后 的 结果 意味 着 
函数 会 获得 一 个 位 置 参 数 ， 看 一 看 A 中 五 的 def 语句， 没 错 ，self 正 是 一 个 位 置 参数 。 

由 于 func 在 iE 分 支 之 后 指向 了 pyFunctionobject 对 象 ， 所 以 接 下 来 Python 执行 
引擎 将 进入 fast_function。 到 了 这 里 , 我 们 已 经 可 以 容 然 贯通 了 , 剩 下 的 动作 将 和 我 们 
之 前 所 分 析 过 的 带 参 函数 的 调用 一 致 。 实际 上 a.f£ 的 调用 实质 上 就 是 一 个 带 1 个 位 置 参 数 
的 一 般 函 数 的 调用 。 而 在 fast_function, 在 图 12-27 中 作为 seif 参数 的 <instance a> 
被 Python 虚拟 机 压 入 到 了 运行 时 栈 中 。 从 第 11 章 的 分 析 我 们 可 以 知道 ,在 fast_function 
中 ， 由 于 a.E 仅仅 是 一 个 带 位 置 参数 的 函数 ， 所 以 Python 执行 引擎 将 进入 快速 通道 ， 在 
快速 通道 中 ， 运 行 时 栈 中 的 这 个 instance 对 象 会 被 指 贝 到 新 的 pyprameobject 对 象 的 
f_localsplus 中 。 还 记得 我 们 曾经 利 来 履 去 剂 析 过 的 fast_function 吗 ? 


码 清单 12-7 


ro 





Python 源码 前 六 一 一 深 民 误 黄 动态 语 车 稻 心 共 栋 


12.5 访问 instance 对 象 中 的 属性 量 307 





在 调用 fast_function 时 ， 参 数 的 数量 n 已 经 由 执行 cALL_FUNCTION 时 的 0 变 为 了 
1, 所 以 代码 清单 12-7 中 [处 的 scack 指向 的 位 置 就 和 图 12-27 中 的 sfunc 指向 的 位 置 是 
一 致 的 了 。 为 了 要 在 代码 清单 12-7 的 [处 将 <instance a> 作 为 参数 拨 由 到 和 函数 的 参数 区 
fastlocals 中 ， 必 须 将 它 放 壮 到 栈 项 ， 也 就 是 以 前 PyMethoadobject 对 象 所 在 的 位 置 上 。 
这 就 是 前 面 在 call_fuanetion 中 那个 神秘 的 赋值 操作 的 原因 。 


12.5.5 “” 带 参 函 数 的 调用 


Python 虚拟 机 对 类 中 带 参 的 成 员 函 数 的 调用 , 其 原理 和 流程 都 与 无 参 函 数 的 调用 是 一 
致 的 ， 我 们 来 看 看 调用 函数 g 的 字 节 码 序列 : 







可 以 看 到 ,和 调用 成 员 函 数 芋 的 指令 序列 几乎 完全 一 致 ,只 是 多 出 了 一 个 “FoAD_coNsy 
2” 指 令 。 对 这 个 指令 应 该 不 陌生 了 ， 在 分 析 函 数 机 制 的 时 候 ， 我 们 看 到 它 是 用 来 将 函数 
所 需 的 参数 压 入 到 运行 时 栈 中 的 。 这 就 是 带 参 函 数 与 无 参 函数 的 唯一 不 同 之 处 ， 想 一 想 无 
参 函数 的 调用 流程 ， 带 参 函数 的 调用 流程 也 迎刃而解 了 。 

对 于 g， 真 正 有 趣 的 地 方 在 于 考察 函数 的 实现 代码 ， 从 而 可 以 看 到 对 那个 作为 self 
参数 的 instance 对 象 的 使 用 
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显然 ， 其 中 的 LoAD_FAST、LOAD_ATTR、STORE_ATTR 这 些 字 节 码 指令 都 涉及 到 了 作 
为 self 参数 的 instance 对 象 。 有 兴趣 的 读者 可 以 分 析 一 下 storE_amra 的 代码 , 可 以 发 
现 其 中 也 有 类 似 于 IOAD_amTR 中 pyobject_GenericGetattr 的 属性 访问 算法 。 

其 实 到 了 这 里 ， 我 们 可 以 在 更 高 的 层次 俯视 一 下 Python 的 运行 模型 了 ， 最 核心 的 模 
型 其 实 非常 简单 ， 可 以 简化 为 两 条 规则 : 
> ”在 某 个 名 字 空间 中 寻找 符号 对 应 的 对 象 ; 
> ”对 从 名 字 空 间 中 得 到 的 对 象 进行 某 些 操作 。 

抛 开 面向 对 象 花 里 胡 哨 的 外 表 , 其 实 我 们 会 发 现 , class 对 象 其 实 就 是 一 个 名 字 空 间 ， 
instance 对 象 也 是 一 个 名 字 空 间 ， 不 过 这 些 名 字 空 间 通 过 一 些 特殊 的 规则 联结 在 一 起 ， 
使 得 符号 的 搜索 过 程 变 得 复杂 ， 从 而 实现 了 面向 对 象 这 种 编程 模式 ， 如 此 而 已 。 


12.5.6 Bound Method 和 Unbound Method 


在 Python 中 ， 当 对 作为 属性 的 函数 进行 引用 时 ， 会 有 两 种 形式 ， 一 种 称 为 Bound 
Method， 这 种 形式 是 通过 类 的 实例 对 象 进行 属性 引用 ， 就 像 我 们 之 前 花 了 大 力气 讨论 的 
a.£ 这 样 的 形式 ; 而 另 一 种 则 是 通过 类 进行 属性 引用 , 称 为 Unbound Method, 形式 如 A.£， 
当然 ,对 Bound Method 的 调用 和 对 Unbound Method 的 调用 其 形式 是 不 同 的 ， 其 原因 可 以 
追溯 到 :oap_azrR 中 。 我 们 先 来 看 一 段 使 用 Unbound Method 的 Python 代码 一 class 1 py: 











其 中 的 关键 就 在 于 “34 LoAD_AmtR 3” 指 令 ， 在 12.5.2 节 中 ， 我 们 已 经 解释 过 ， 这 
里 的 LOAD_ATTR 指令 最 终 会 调用 type_getattro。 在 type_getattro 中 , 会 在 <class A> 
的 tp_aict 中 发 现 “g” 对 应 的 PyFunctionobject， 同 样 ， 因 为 它 是 一 个 descriptor, 
因此 也 会 调用 其 _get 函数 进行 转变 。 在 之 前 剖析 a. 主 时 ， 我 们 看 到 这 个 转变 是 通过 Func_ 
descr_get (A.f, a, A) 完 成 的 , 这 里 对 “g” 的 转变 则 是 通过 func_descr_ger (A.g, NULL, 
A) 完 成 。 因 此, 虽然 A.g 也 得 到 了 一 个 pyMechoaobjeet, 但 是 其 中 的 im_self 却 是 NULL。 
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在 Python 中 ,Bound Method 与 Unbound Method 的 本 质 区 别 就 在 于 PyFunctionObject 
有 没有 与 instance 对 象 绑 定 在 pyMethodobject 中 ，Bound Method 完成 了 绑 定 动 作 ， 而 
Unbound Method 没有 完成 绑 定 动作 。 


所 以 ， 在 对 Unbound Method 进行 调用 时 ， 我 们 必须 显 式 地 提供 一 个 instance 对 象 
作为 函数 的 第 一 个 位 置 参数 ， 因 为 s 无 论 如何 都 需要 一 个 self 参数 。 所 以 才 会 有 A.g(a， 
10) 这样 的 调用 形式 。 而 无 论 是 对 Unbound Method 进行 调用 ， 还 是 对 Bound Method 进行 
调用 ，Python 虚拟 机 的 动作 在 本 质 上 都 是 一 样 的 ， 都 是 调用 带 位 署 参 数 的 一 般 函 数 ， 区 列 
只 是 在 于 : 当 调 用 Bound Method 时 ，Python 看 拟 机 帮 我 们 完成 了 ByFunctionObject 对 
象 和 instance 对 象 的 绑 定 , instance 对 象 将 自动 成 为 self 参数 ;而 调用 Unbound Method 
时 ， 没 有 这 个 绑 定 ， 我 们 需要 自己 传 入 self 参数 。 

下 面 的 图 12-29 清晰 地 展示 出 了 Bound Method 与 Unbound Method 的 不 同 : 


>7>7> TIASS AIONTeCtT): 
vaf f(self}): 









.有 object at 0X00DCCC1L0>> 





< main -A object at 0x00DCCC10> 
>>> unbound.im selt 


图 12-29 bound method 和 unbound method 


在 我 们 希望 输出 Unbound Method 对 象 的 im_selFE 域 时 ， 没 有 任何 东西 输出 ， 因 为 这 
个 域 根本 就 是 个 NELLs 


对 于 成 员 函 数 的 调用 ， 或 者 说 是 对 于 成 员 函 数 的 绑 定 过 程 ， 有 一 点 值得 注意 的 是 ， 每 
一 次 函数 调用 都 会 激发 一 次 绑 定 过 程 。 其 原因 在 于 ， 每 次 进行 属性 引用 时 ， 都 会 重新 获得 
属性 对 应 的 PyFunctionobject (descritpro)， 进而 创建 新 的 pyMethodobject 对 象 。 这 
一 点 的 开销 实在 是 有 些 大 。 表 12-3 展示 了 两 种 不 同 函数 调用 方式 的 绑 定 次 数 〈 我 们 修改 
了 PyMethod_New 的 代码 ， 使 其 在 创建 名 为 让 的 EvMethodobject 对 象 时 输出 调用 次 数 ): 
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表 12-3 ”不同 函数 调用 方式 对 应 的 绑 定 次 数 








| class “ln Class As 








def f(self): def f(self); 
Pass Pass 
a = A{) 翅 三 A() 
for i in range{(l00): Uc 于 
a.£() for i in range{100) 
funec(10) 
函数 绑 定 100 次 函数 绑 定 1 次 





在 bound_l.py 中 ， 一 共 会 进行 100 次 的 属性 访问 和 函数 绑 定 操作 ， 而 在 bound_2.py 
中 却 只 会 进行 一 次 属性 访问 和 函数 绑 定 的 操作 。 


12.6 和 干 变 万 化 的 descriptor 





当 我 们 调用 instance 对 象 的 函数 时 ， 最 关键 的 一 个 动作 就 是 从 PyFunctionObiect 
对 象 向 PyMethodobject 对 象 的 转变 , 而 这 个 关键 的 转变 被 Python 中 的 aescripter 概念 
很 自然 地 融入 到 Python 的 类 机 制 中 。 当 我 们 访问 对 象 中 的 属性 时 ， 由 于 descriptor 的 存 
在 ， 这 种 转换 就 自然 而 然 地 发 生 了 。 将 这 种 descriptor 的 思想 推 而 广 之 ， 其 实在 访问 属 
性 时 ， 我 们 不 光 能 实现 从 pyFunetionObject 到 PyMethodobject 对 象 的 转变 ， 实 际 上 我 
们 可 以 做 任何 事情 。 在 Python 内 部 , 也 存在 着 各 种 各 样 的 Gescriptor, 这 些 descriptor 
的 存在 给 Python 的 类 机 人 制 赋予 了 强大 的 力量 。 这 一 节 ， 我 们 就 来 看 看 Python 是 如 何 使 用 
descriptor 实现 static method 的 。 







在 3.1.1 节 描 述 的 为 A 创建 动态 元 信息 的 过 程 中 ，Python 虐 拟 机 首先 会 执行 一 个 aef 
语句 ,将 符号 “g” 和 一 个 PyFunctionobject 对 象 关联 起 来 ,但 随后 的 g= staticmethoatg) 
则 会 将 “g ”与 一 个 staticmethod 对 象 关联 起 来 , 从 而 将 属性 “gq ”改造 成 一 个 static method， 

这 条 语句 对 应 的 字 节 码 指令 如 下 : 
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Python 虚拟 机 在 执行 “15 LoaD_NaME 3” 指 令 时 ， 会 从 puiltin 名 字 空 间 中 获得 一 
个 与 符号 “sraticmethod” 对 应 的 对 象 ， 这 个 对 象 在 Python 启动 并 进行 初始 化 时 设置 ( 初 
始 化 过 程 将 在 后 面 的 章节 中 详细 剂 析 )， 从 图 12-30 可 以 看 到 ， 它 其 实 是 一 个 class 对 


象 <type staticmethod>: 








所 以 ,执行 staticmethod (lg) 的 过 程 就 是 一 个 从 class 对 象 创建 instance 对 象 的 过 
程 ， 从 本 章 前 面 的 描述 我 们 可 以 知道 ， 最 终 将 调用 pyobject_Genericalloc 申请 一 段 内 
存 ， 内 存 空间 的 大 小 由 staticmethod 结构 体 决定 : 







Ca A001 


在 申请 完 内 存 之 后 ，Python 赴 拟 机 还 会 调用 __inir_ 进行 初 始 化 的 动作 ，<type 
staticmethod> 在 Python 内 部 对 应 的 是 PystaticMethod_Type, 而 其 中 的 tp_init 设置 


为 sm_init: 














人 1 
非常 清晰 ， 在 初始 化 时 ， 作 为 参数 的 原来 “g” 对 应 的 那个 pyFunctionobject 被 赋 
给 了 staticmethod 对 象 中 的 sm_callable。 最 后 Python 不 拟 机 通过 指令 “24 smoRE 
NAME 2” 将 符号 “g” 和 这 个 staticmethod 对 象 关联 了 起 来 。 
再 仔细 地 考察 pystaticMethod_Type， 发 现 这 里 创建 的 staticmethoa 对 和 象 实 际 上 
也 是 一 个 Gescriptor， 因 为 在 PystaticMethod_Type 中 ，tp_descr_get 指向 了 sm_ 
descr_gets 
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当 我 们 访问 属性 “g” 时 ,不 论 是 通过 instance 对 象 访 问 ( 坯 .g) ， 还 是 通过 ciass 对 
象 访问 (A.g)， 由 于 “g” 是 一 个 位 于 class 对 象 <class a> 的 tp_diat 中 的 dascriptor, 
所 以 会 调用 其 _get_ 操作 (sm_descr_get)， 直 截 了 当地 返回 其 中 保存 的 最 开始 与 
对 应 的 那个 PyFunctionobject 对 象 。 


Python 中 的 static method 只 是 descripto 应 用 的 一 个 例子 ， 还 有 其 他 很 多 特性 ， 比 
如 class method、property 都 是 应 用 descriptor 的 例子 ， 而 且 ， 到 有 目前 为 止 ， 我 们 也 没有 再 
判 析 初 识 Gescr iptor 时 遇见 的 那个 PyWrapperDescrObiect, 有 兴趣 的 读者 可 以 自行 分 析 
=* hs 
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我 们 现在 已 经 完成 了 对 Python 的 核心 一 一 字 节 码 虚 拟 机 一 一 的 剖析 工作 ， 然 而 对 于 
完整 地 理解 Python 运行 时 的 行为 还 不 够 ， 还 有 一 部 分 内 容 被 遮 在 了 大 幕后 边 。 在 这 一 章 ， 
我 们 将 回 到 时 间 的 起 点 ， 从 Python 应 用 程序 被 执行 开始 ， 一 步 一 步 紧 紧 跟随 Python 的 踪 
迹 ， 完 整地 展示 Python 在 启动 之 初 的 所 有 动作 。 当 我 们 跟随 Python 完成 所 有 的 初始 化 动 
作 之 后 ， 也 就 能 对 Python 执行 引擎 执行 字 节 码 指令 时 的 整个 运行 环境 了 如 指 掌 了 。 


13.1 ”线程 环境 初始 化 








13.1.1 ”线程 模型 回顾 


Python 启动 之 后 ， 真 正 有 意义 的 初始 化 动作 是 从 py_rtnitialize 开始 的 。 在 Py_ 
Initialize 中 , 仅 有 一 个 函数 被 调用 , 即 函 数 py_initializegxs 尽 管 在 By_Iinitialize 
之 前 ，Python 已 经 做 了 很 多 繁 矣 的 工作 ， 但 是 这 些 工 作对 于 理解 Python 的 运行 环境 并 没 
有 太 多 的 意义 ,所 以 我 们 对 Python 运行 时 环境 初始 化 的 剖析 也 从 Py_rnicializeEx 开始 。 


在 Py_Initializeax 中 ， 所 完成 的 一 个 重要 的 工作 就 是 加 载 多 个 基础 的 module， 比 
如 _builcin ，sys 等， 同时 也 会 完成 Python 类 型 系统 的 初始 化 和 异常 系统 的 初始 化 ， 
当然 还 有 其 他 许多 工作 ， 在 本 章 以 后 的 描述 中 我 们 将 深入 考察 这 些 芽 作 ， 

但 是 在 进入 对 Python 初始 化 流程 的 跟踪 之 前 ， 我 们 需要 先 复习 一 下 Python 的 运行 模 
型 ， 或 者 说 线程 模型 ， 在 第 8 章 中 ， 我 们 曾 详细 地 介绍 了 这 个 线程 模型 。 在 此 ， 我 们 仅 列 
出 两 个 关键 的 数据 结果 以 及 对 Python 运行 模型 的 图 示 。 
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其 中 ，PyInterpreterstate 是 对 进程 的 模拟 ， 而 pyrhreaastate 是 对 线程 的 模拟 。 
图 13-1 则 展示 了 Python 虚拟 机 运行 期 间 某 个 时 刻 整个 的 运行 环境 。 
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图 13-1 某 个 时 刻 Python 运行 时 的 整个 环境 


13.1.2 ”初始 化 线程 环境 


在 Win32 平台 上 , 当 执行 一 个 可 执行 文件 时 , 操作 系统 首先 会 创建 一 个 进程 内 核对 象 。 
同样 ， 在 Python 中 也 是 如 此 ， 在 -py_Initializegx 的 开始 处 ，Python 会 首先 调用 
pyInterpreterState_New 创建 一 个 疡 新 的 PyInterpreterState 对 象 。 





Python 源 枉 前 昕 一 一 深 诬 如 策动 态 语 店 锥 心 失 厌 
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在 Python 的 运行 时 环境 中 ， 有 一 个 全 局 的 管理 PyInterpreterstate 对 象 链表 的 东 
西 : ijnterp_head。 从 这 个 名 字 以 及 PyInterpreterSstate 结构 体 中 的 next 指针 看 ， 我 们 
可 以 断定 在 Python 运行 的 时 候 ， 可 能 会 有 一 组 pyInterpreterstate 对 象 通过 next 指针 
形成 一 个 链表 结构 ， 而 这 个 表 头 就 是 interp_head。 这 其 实 就 是 如 图 13-1 所 示 的 Python 
对 操作 系统 上 多 进程 的 模拟 ， 对 于 多 进程 ， 这 里 我 们 不 过 多 深入 。 

在 PyInterpreterstate_New 函数 完成 之 后 ， 我 们 得 到 了 如 图 13-2 所 示 的 解释 器 状 
态 对 象 。 





在 创建 了 pyInterpreterstate (进程 状态 ) 对 象 之 后 ，Python 会 立即 再 接 再 厉 ， 调 
用 pyThreadstate_New 创建 一 个 全 新 的 pyrhreadstate (线程 状态 ) 对 和 象 《 见 代码 清单 
13-1)。 


代码 清单 13-1 
Tpyatate-c] 
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与 PyInterpreterState_New 相同 , PyThreadstate_New 申请 内 存 ， 创建 PyThread- 
State 对 和 象 ， 并 对 其 中 各 个 域 进行 初始 化 。 我 们 注意 到 ， 在 pyThreaastate 结构 体 中 ， 
也 存在 着 一 个 next 指针 ， 肯 定 在 Python 运行 的 某 个 时 刻 ， 会 如 图 13-1 所 示 的 那样 ， 存 在 
一 小 PyThreadstate 对 象 的 列表 ， 用 脚趾 头 我 们 也 能 想到 这 肯定 和 Python 中 多 线程 的 实 
现 有 关 。 
在 代码 清单 13-1 的 [可 处 ，Python 设置 了 从 线程 中 获得 函数 调用 栈 的 方法 ， 所 谓 的 函 
数 调 用 栈 也 就 是 PyFrameobject 对 象 链表 。 
注意 ， 在 代码 清单 13-1 的 [2] 和 [3] 处 ，Python 到 目前 为 止 创建 的 仅 有 的 两 个 对 象 建立 
起 了 联系 ， 对 应 到 Win32 上 ， 我 们 可 以 说 ， 在 [2] 和 [3 处 ， 进 程 和 线程 之 间 建 立 起 了 联系 。 
建立 联系 后 的 PyThreadstate 对 象 和 PyInterpreterstate 对 象 如 图 13-3 所 示 。 





图 13:3 在 PyInterpreterState 与 PyThreadState 之 间 建立 联系 


Python 疡 三 曾 折 一 一 深 殿 迷 策 动 灰 溢 膏 类 心 接头 
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注意 , 在 图 13-3 中 ,虚线 箭头 表示 在 函数 Pymhreaascake_New 中 intaro 和 Estate 
两 个 变量 所 指向 的 对 象 。 

在 PyInterpreterstate 对 象 和 pythreadstate 对 象 建立 了 这 样 的 联系 之 后 ， 我 们 
就 能 够 很 容易 地 在 PyinterpreterState 对 银 和 PyThreadState 对 象 之 间 穿 梭 往返 。 在 
Python 的 运行 时 环境 中 ， 有 一 个 全 局 变 最 pymhreadstate_current， 这 个 变量 维护 厦 当 
前 活动 的 线程 ， 更 准确 地 说 是 当前 活动 线程 对 应 的 pyrhreadstate 对 象 ， 初 始 时 ， 该 变 
量 为 NOLL， 如 图 13-3 所 示 。 在 创建 了 Python 启动 后 的 第 一 个 pyzhzreadstate 对 象 之 后 ， 
会 以 该 pyThreadstate 对 象 调 用 PyThreadstate_swap 函数 来 设置 这 个 全 局 变量 : 







接着 ，Python 的 初始 化 动作 开始 转向 Python 类 型 系统 的 初始 化 ， 这 个 转折 是 在 
Py_InitializeBx 中 调用 _Py_ReadyTypes 时 开始 的 。 类 型 系统 的 初始 化 是 一 套 相 当 繁 复 
的 动作 ， 在 介绍 Python 的 类 机 制 时 ， 我 们 已 经 详细 剖析 了 。 

随后 ， 在 py_InitializeEx 中 ， 接 下 来 的 动作 是 调用 _pyFrame_Init 来 设 笑 全 局 变 
量 builtin_objeeti 








这 个 内 容 为 ”_builtins_ "的 ByStripgobjact 对 象 buittin_object 在 pyframe_ 
New 创建 一 个 新 的 PyFrameobject 对 象 时 将 发 挥 作用 ， 这 里 我 们 暂时 不 去 管 它 。 

在 此 之 后 ，Python 还 会 初始 化 一 些 其 他 边 边 角 角 的 东西 ,比如 在 _pPyInt_Init 中 初始 
化 我 们 在 剖析 Python 中 的 整数 对 象 时 看 到 的 那个 庞大 的 整数 对 象 系 统 。 当 然 ， 这 里 我 们 
就 不 去 深究 这 些 初始 化 了 ， 有 兴趣 的 读者 可 以 收拾 兵 马 ， 杀 将 进去 ， 

好 了 ， 到 这 里 ， 我 们 的 py_InitializeEx 有 了 一 个 阶段 性 的 成 果 。 我 们 创建 了 代表 
进程 和 线程 概念 的 pytnterpreterstate 对 象 和 pyThreadstate 对 象 ， 并 且 在 它们 之 间 
建立 了 联系 。 接 下 来 , py_InitializeEx 将 进入 另 一 个 相对 独立 的 环节 ; 设 管 系统 module。 


Python 源码 就 新 一 深 受 大 项 动 从 导语 机 心 胡 状 
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13.2 ”系统 module 初始 化 





我 们 都 有 这 样 的 经 历 ， 在 交互 模式 下 启动 Python 程序 之 后 ， 散 入 “airt)”， 会 显 不 
一 个 1ist 的 内 容 ， 我 们 这 里 不 管 它 是 如 何 运 作 的 ， 输 出 的 信息 又 是 什么 ， 单 说 这 个 调用 
本 身 ， 就 大 有 内 容 可 控 。 我 们 已 经 知道 ，Python 要 执行 iz()， 必 定 是 在 某 个 名 字 空 间 中 
寻找 到 了 符号 “air” 所 对 应 的 对 象 ,更 进一步 ,我 们 甚至 知道 , 这 个 对 象 一 定 是 个 callable 
的 对 象 。 不 过 我 们 现在 仅仅 考虑 符号 “air” 的 存在 性 ， 符 号 “air” 的 存在 性 意味 着 在 
Python 启动 之 后 ， 虽 然 我 们 没有 进行 任何 操作 ， 但 是 Python 已 经 创建 了 某 个 名 字 空 间 ， 
在 这 个 名 字 空 间 中 ， 存 在 着 符号 “air”。 这 个 名 字 空 间 中 的 符号 和 值 来 自 于 系统 module， 
而 这 些 系 统 module 正 是 在 py_tnitializegx 中 设置 的 。 其 中 第 一 个 被 Python 创建 的 
module 是 _builcin_ module。 


13.2.1 创建 _builtin__ module 


在 Py_initializeBx 中 , 当 Python 创建 了 PyInterpretrerstate 和 和 'PyThreadstate 
对 象 之 后 ， 就 会 开始 通过 _pyBuiltin_tnit 来 设置 系统 的 _ builtin__ module 了 。 
[pythonrun.ce] 






在 调用 _pyBuiltin_Init 之 前 ，Python 最 终 会 将 interp->modules 创建 为 一 个 
PyDictobject 对 人 象 ， 这 个 对 象 将 维护 系统 所 有 的 module， 这 也 符合 我 们 在 第 8 章 中 提 到 
的 ) PyInterpreterState 对 象 中 维护 着 所 有 的 PyThreadState 对 象 共 享 的 资源 。 过 一 
点 我 们 将 在 接 下 来 的 _pysuiltin_Init 中 清晰 地 看 到 ( 见 代 码 清单 13-2)。 
代码 清单 13-2 
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整个 _pyBuiltin_tnit 函数 的 功能 就 是 设置 好 builtin module， 作 为 一 个 
Pythoner， 对 于 这 个 家 伙 ， 应 该 不 会 陌生 吧 @@。_Fvauiltin_init 通过 两 个 步骤 来 完成 对 
__builtin 的 设置 ， 

代码 清单 13-2 的 [了 和 [2] 分 别 有 如 下 含义 : 

[1] 创建 pywoduleobject 对 象 ， 在 Python 中 ，module 正 是 通过 这 个 对 象 来 实现 的 。 
[2] 设置 module， 将 Python 中 所 有 的 类 型 对 象 全 塞 到 新 创建 的 _builtin__module 中。 

其 实在 第 一 步 中 ，Python 就 已 经 完成 了 大 部 分 设置 builtin__ moauile 的 工作 ， 这 
部 分 工作 是 通过 py_InitModule4 来 完成 的 〈 见 代码 清单 13-3)。 
代码 清单 13-3 
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Py_InitModule4 的 函数 参数 对 于 理解 这 个 家 伙 的 行为 非常 有 帮助 ， 所 以 我 们 将 各 个 
参数 的 意义 在 下 面 列 出 。 
> name: module 的 名 称 ， 在 这 里 ， 是 “_builicin __”。 
methods: 该 module 中 所 包含 的 函数 的 集合 ， 在 这 里 ， 是 builtin_methods。 
doc: module 的 文档 ， 在 这 里 ， 是 builtin_doe。 
passthrough: 这 个 参数 在 Python 2.5 中 并 没有 使 用 ， 所 以 你 可 以 看 到 它 是 不 NL。 
module_api_version: Python 内 部 使 用 的 version 值 , 用 于 比较 (参考 py_ initMoauled 
完整 代码 )。 
我 们 看 到 ,在 py_Initmodule4 中 ， Python 的 行为 可 以 分 为 相对 独立 的 两 个 部 分 ， 一 
个 是 创建 module 对 象 本 身 , 另 一 个 是 将 ‘符号, 值 ) 对 应 关系 放置 到 所 创建 的 module 中 。 


YY ¥ ¥ 


13.2.1.1 创建 module 对 象 


在 函数 Py_InitModule4 中 ， 代 码 清单 13-4 的 [处 的 PyImport_AddModule 创建 了 
代码 清单 13-4 
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Python 内 部 维护 了 一 个 存放 所 有 加 载 到 内 存 中 的 module 的 集合 ， 在 这 个 集合 中 ， 存 
放 荐 所 有 的 《module 名 ，module 对 和 象 ) 这 样 的 对 应 关系 ， 这 个 集 侣 其 实 就 是 我 们 在 之 前 
的 13.2.1 节 中 看 到 的 py_Itnitializegx 中 出 现 的 interp->modules， 从 那里 可 以 看 到 ， 
它 确 实 就 是 一 个 pypictobject 对 象 。 对 应 到 Python 一 级 ， 这 个 全 局 的 modue 集合 就 是 


SYyS.modules, 

在 Python 创建 一 个 新 的 module 对 葡 之 前 ， 会 先 到 这 个 module 集合 中 查看 是 否 已 经 
存在 同名 的 module。Python 通过 代码 清单 13-4 的 [T] 处 的 PyIimport_GetModulepict 获得 
这 个 pyInterpreterstate 对 象 中 的 module 集合 。 






在 PyImport_AdaModule 的 代码 清单 13-4 的 [2] 处 ， 会 在 从 [1] 处 获得 的 module 集合 
中 搜索 名 为 name 的 module 对 象 , 如 果 该 module 已 经 存在 , 则 直接 将 module 返回 ; 否则 ， 
Python 会 通过 下 面 的 pyModule_New 创建 名 为 name 的 新 的 module 对 象 ， 并 将 (name， 
module) 对 应 关系 插入 到 module 集合 (interp->modules) 中 。 


实际 上 ，PyModuleobject 对 象 就 是 对 ByDictobject 对 象 的 一 个 简单 包装 ， 创 建 
PyModuleobject 对 象 的 动作 也 显得 非常 的 清晰 ， 注 意 在 这 里 设置 了 module 的 _ name 
属性 ， 却 并 没有 设置 其 _aoc_ 属性 。 


Python 江 妈 前 六 一 一 次 居 区 匡 动态 语言 套 心 共 术 
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我 们 注意 到 ，pyImport_addModule 量 然 创建 了 一 个 module, 但 是 这 仅仅 是 一 个 空 的 
module， 并 没有 包含 它 所 应 该 包含 的 操作 和 数据 ,而 PyImport_AddModule 似乎 也 并 不 在 
意 ， 在 代码 清音 13-4 的 [ 引 处 将 这 个 空空 如 也 的 pyModuleObject 对 象 放 入 到 interp-> 
modules 中 就 匆匆 返回 了 。 


13.2.1.2 ”设置 module 对 象 


在 Pylmport_AddModule 结束 后 , 程序 流程 回 到 py_rtnitModule4 手中 , 在 接 下 来 的 
代码 清单 13-4 的 {3] 处 ，Py_InitModuie4 完成 了 对 _ builtin__module 儿 乎 全 部 属性 的 
设置 。 这 个 属性 设置 的 动作 依赖 于 Py_InitModule4 的 调用 者 传递 进来 的 第 二 个 参数 

(methods), 在 这 里 为 builtin_methods。Py_InitModule4 会 遍历 builtin_methods， 
并 处 理 其 中 的 每 一 项 元 素 。 我 们 来 看 看 这 个 builtin_methods。 






看 看 builtin_methods 中 的 家 伙 啊 ，dir、getattr、len…*… 个 个 出 秧 高贵， 在 
Pythoner 的 眼中 ， 它 们 就 代表 着 Python。 我 们 从 图 13-4 可 以 形象 地 看 到 PyMethoaDef 的 
结构 。 


Python 六 本 前 六 一 一 深度 并 绩 动 从 语 这 大 心 技 相 
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(vitaer”, builtin its MBETH VARARGS, itar doc], 


{ yemnm . builtin len pp METH O 站 Ten doo} 天 






















Static PyObject* 
builtin len(PyObject *seilf, Pyobject *v) 
( 
» long reg; 

res = PyObject Size (vy)}; 

(Fas < 0 45 PyErr Occurred()) 

return NULL; 
raturn PyInt FromLong (res)} 







RyDoc_ STRVAR (len_doc, 
“lien (objact) -> inteyer\n\ 

AN 

‘Return the number of items of as sequance or JuapPing 


图 13-4 len 函数 对 应 的 PyMethodDef 结构 
对 于 builtin_methods 中 的 每 一 个 pyMethodDef 结构 ，Py_TnitModulea 都 会 基于 
它 创建 一 个 pycrunctionobjet 对 象 ， 这 个 对 象 是 Python 中 对 函数 指针 的 包装 ， 当 然 ， 
还 将 这 个 函数 指针 和 其 他 信息 联系 在 了 一 起 : 





很 显然 ，Python 对 PycFunctionobjet 对 象 采 用 了 缓冲 池 的 策 赂 ， 不 过 有 了 对 
PyIntobject， PyListObject 对 象 的 痢 析 ， 我 们 已 经 可 以 将 这 个 策略 猜 个 八 九 不 离 十 了 。 


Python 源 到 动 厅 一 一 深度 帮 英 动 区 放言 顶 作 花 义 
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PyCFunctionobject 对 象 中 的 那个 self， 也 就 是 在 Py_TnitModule4 中 传 入 的 


passthrough， 我 们 说 过 ， 在 Python 2.5 中 ， 这 个 东西 没有 作用 ， 所 以 这 个 self 通常 总 为 


NULL。 同时 还 要 注意 pycFunctionObject 对 象 中 的 m_module 域 并 不 是 指向 一 个 真正 的 
PyModuleObject 对 人 象 , 而 是 指向 了 Pystringobject 对 象 ， 当然， 这 个 pystring0bject 
对 象 中 维护 的 正 是 pyModuleobject 对 象 的 名 字 ， 

现在 , 荐 回 到 本 节 的 开始 , 再 次 一 路 向 下 看 到 这 里 ,你 的 头脑 里 是 不 是 已 经 将 __buiiltin 


__module 建 立 起 来 了 呢 ? 图 13-5 给 出 了 一 个 建立 完成 的 _builtin module 的 示意 图 。 
_ md_dict 






图 13-5 ”建立 完成 的 _ builtin__ module 
在 _pyBuiltin_Init 之 后 ，Python 将 把 pyModuleobject 对 和 象 中 维护 的 那个 
PyDictObject 对 象 抽 取出 来 ， 将 其 赋 给 interp->builtins。 这 个 结果 已 经 在 图 13-5 中 
显示 出 来 了 。 


以 后 Python 在 需要 访问 builtin module 时 ， 直接 访问 interp->builtins 就 可 
以 了 ， 不 需要 再 到 interp->modules 中 去 查找 。 因 为 对 builtin__module 的 使 用 在 
Python 中 会 比较 频繁 ， 所 以 这 种 加 速 机 制 是 很 有 效 的 。 


Python 并 码 测 六 一 一 深度 确 黄 动态 尘 车 杖 心 横 天 
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13.2.2 创建 sys module 


13.2.2.1 sys module 的 备份 


Python 在 创建 并 设置 了 _builcin__ module 之 后 ， 会 照 猫 画 虎 ， 用 同样 的 流程 设置 
sys module, 并 像 设 置 incerp->builtins 一 样 设置 interp->sysdict( 见 代码 清单 13-5)。 
代码 清单 13-5 






在 完成 了 对 _builtin 和 sys 两 个 module 的 设置 之 后 ，PyInterpreterState 对 
象 和 pyThreadstate 对 象 在 内 存 中 的 情形 如 图 13.6 所 示 。 






区 
”buitn “| 


图 13-6 完成 sys module 的 创建 后 的 内 存 布局 
注意 图 13-6 中 从 sys 和 _ builtin_ 两 个 module 对 象 中 以 虚线 形式 引出 的 pypicE 
object 对 象 表 示 PyModule0bject 内 部 维护 的 那个 pyDictobject 对 象 ( 即 ma_dict)， 。 
从 前 面 的 分 析 中 我 们 可 以 看 到 ，interp->sysdict 和 interp->builtins 指向 的 确实 是 

PyDictObject 对 象 ， 而 非 PyMoGuleObject 对 象 。 
由 于 Python 的 module 集合 interp->modules 是 一 个 ByDictobject 对 象 ， 而 
PyDictobject 对 象 在 Python, 中 是 一 个 可 变 对 象 ， 所 以 其 中 维护 的 (moaule name， 
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PyModuleObject) 元 素 对 有 可 能 在 运行 时 被 删除 。 对 于 Python 的 扩展 module， 比如 这 里 
的 sys， 为 了 避免 对 它 再 一 次 进行 初始 化 ，Python 会 将 所 有 的 扩展 module 通过 一 个 全 局 
的 PyDictobject 对 象 来 进行 备份 维护 。 这 个 备份 的 动作 在 上 面 的 代码 清单 13-5 的 py_ 
Initializegx 之 [2] 处 通过 调用 _byImport_FixupExtension 来 完成 ( 见 代 码 清单 13-6)。 
代码 清单 13-6 


limport CI 
J ~> PE ed 人 > 
E> SR 











Python 内 部 维护 了 一 个 全 局 变量 extensions， 这 个 变量 在 第 一 次 调用 _pyImport_ 
FixupBxtension 时 会 在 代码 清单 13-6 的 [了 J 处 被 创建 为 一 个 PyDictobject 对 象 , 而且 这 
个 pybictobject 对 象 将 维护 所 有 已 经 被 Python 加 载 的 module 中 的 PyDictObject 的 一 
个 备份 。 当 Python 系统 的 module 集合 中 的 某 个 标准 扩展 module 被 删除 后 不 久 又 被 重新 
加 载 时 , Python 就 不 需要 再 次 初始 化 这 些 module, 只 需 用 extensions 中 备份 的 PyDictObject 
对 象 来 创建 一 个 新 的 module 即 可 。 这 一 切 是 基于 这 样 的 一 种 假设 ，Python 中 的 标准 扩展 
module 是 不 会 在 运行 时 动态 改变 的 。 显 然 ， 这 个 假设 也 合情合理 。 


13.2.2.2 ”设置 module 搜索 路 径 


Python 在 创建 了 sys module 之 后 ， 会 在 此 module 中 设置 Python 搜索 一 个 module 时 的 
默认 搜索 路 径 集 合 。 这 个 路 径 集合 就 是 在 Python 执行 import xyz 时 将 察看 的 路 径 的 集合 : 
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这 里 由 于 篇 幅 关 系 ， 略 去 了 makepathobject， 参 考 源码 ， 可 以 看 到 ， 在 makepath- 
object 中 , Python 会 创建 一 个 PyListobject 对 象 , 这 个 list 中 包含 了 7 一 组 PyString- 
Object 对 象 ， 每 一 个 pystringobject 对 象 的 内 容 就 是 一 个 module 和 路 径 。 


最 终 ， 这 个 代表 搜索 路 径 集合 的 1ist 对 象 会 在 pysys_Setobject 。 中 被 插入 到 
interp->sysdict 这 个 pypictobject 对 象 中 ,在 图 13-6 中 可 以 看 到 ,这 个 pypictobject 
对 象 正 是 在 sys moaule 中 维护 的 那个 pypictobject 对 象 ， 所 以 这 个 搜索 路 径 集合 也 正 
是 你 在 Python 交互 式 环境 下 敲 入 sys.path 后 所 看 到 的 那个 路 径 集合 。 

Python 随后 还 会 进行 一 些 琐 碎 的 动作 ， 其 中 包括 初始 化 Python 的 import 环境 ,初始 
化 Python 内 建 异常 。 初 始 化 Python 内 建 异 常 实际 上 就 是 调用 PyType_Keaay 初始 化 各 个 
异常 类 ， 而 初始 化 import 环境 会 在 下 一 章 介绍 import 机 制 时 剖析 ， 这 里 不 再 详 述 。 实 
际 上 ， 在 考虑 Python 的 初始 化 时 ， 只 需 有 概念 上 的 了 解 即 可 。 有 兴趣 的 读者 可 以 自己 备 
足 粮草 ， 追 进 代码 深 处 〔 见 代码 清单 13:7)。 
代码 清单 13-7 
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13.2.3 创建 _main__ module 


在 _pyimportHooks_Initt) 之 后 ，Python 将 创建 一 个 非常 特殊 的 module; 一 个 名 为 
“_main_” 的 module(〔 见 代码 清单 13-8)。 
代码 清单 13-8 








TS 和 
这 个 _main_ moGule 基 什 么 东西 呢 ? 我 们 写 一 个 Python 程序 ， 有 一 种 最 简单 的 做 
单元 测试 的 机 制 ， 还 记得 是 什么 吗 ? 没 错 ， 就 是 那个 if name. =s “main 前 面 
我 们 已 经 看 到 , 在 pyImport_aAdaModule 时 ,创建 了 一 个 名 为 name 的 module 之 后 , 会 在 
该 module 对 应 的 PyModuleobject 对 象 的 pyDictobject 对 象 ma_dict 中 插入 一 个 名 为 

一 name ”的 项 ， main_module 的 这 一 项 正 是 名 为 “main__”。 作为 主 程序 运行 
的 Python 源 文件 就 可 以 被 视 为 名 为 “main_ 的 module。 


当 Python 以 python abc.py 这 样 的 方式 执行 时 ，Python 在 沿 着 名 字 空 间 寻 找 _name__ 
时 ， 就 会 最 终 在 _main_module 中 发 现 _name 其实 为 “_main_” 而 如 果 一 个 py 
文件 是 以 import 的 方式 加 载 的 ， 则 __name_ 不 会 为 RA 也 就 是 说 ， 在 Python 
找到 _main_module 之前, 就 己 经 在 某 个 名 字 空 间 找 到 name_ 了。 那么 奇怪 了 ， 无 缘 
无 故 的 ， 为 什么 Python 会 找到 _main _ module 中 去 昵 ? 别 急 ， 在 后 面 我 们 介绍 初始 化 
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阶段 的 名 字 空 间 时 ， 这 个 答案 就 会 揭晓 。 


其 实 这 个 _main__， module 我 们 也 是 再 熟悉 不 过 的 了 ， 当 进入 Python 交互 式 环境 之 
后 ， 殴 入 一 个 airf)， 输 出 的 结果 正 是 这 个 、main__module 的 内 容 ， 看 一 看 图 13-7， 是 
不 是 一 切 都 已 了 然 于 胸 ? 对 于 Python 中 那个 恼人 的 问题 : _builtin 和 _ builicines_ 究 
竟 有 什么 联系 和 区 别 ， 答 案 也 一 目 了 然 了 。 





图 13-7 _main _module 示意 图 


13.2.4 设置 site-specific 的 module 的 搜索 路 径 


Python 是 一 个 非常 开放 的 体系 ， 它 的 强大 来 源 于 海量 的 第 三 方 库 ， 这 些 库 通常 由 
module 提供 ， 当 要 使 用 这 些 第 三 方 库 时 ， 只 需 简 单 地 进行 import 的 动作 就 ok 了。 一般 
来 说 ， 一 些 规模 较 大 的 第 三 方 库 将 放 在 %PythonHome96/lib/site-packages 目录 下 

(%PythonHome% 为 Win32 平台 上 Python 的 安装 路 径 )。 阁 想 在 程序 运行 时 使 用 这 些 库 ， 
那么 必须 使 这 些 库 位 于 Python 的 搜索 路 径 下 ，Right? 


到 目前 为 止 ，Python 初始 化 动作 只 进行 了 唯一 一 个 与 初始 化 搜索 路 径 集 合 相关 的 动 
作 : Pysys_SsetPath(py_Getpath())。 但 是 不 幸 的 是 , 这 个 设置 动作 并 没有 将 site-packages 
包含 在 内 。 在 完成 了 __main__ module 的 创建 之 后 ，Python 才 腾 出 手 来 ， 收 拾 这 个 
site-packages。 这 个 动作 的 关键 在 于 %PythonHome9o/lib 目录 下 的 一 个 标准 库 : site.py。 


我 们 先 来 做 个 实验 ， 将 site.py 内 的 内 容 全 部 替换 为 以 下 内 容 ， 
print we are in Site.py' jl | 亲生 人 


在 我 的 Python 中 ， 安 装 了 Django。 在 图 13-8 中 ， 显 示 了 改动 前 后 import django 
的 运行 情况 。 


We are in site.py 
Python 2.5 (r2B.. 
>>> import djangs 





ImportEcror: NO moduls Tamad diango 
改动 she.py 后 
图 13-8 改动 site.py 前 后 对 django 的 加 载 情况 
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可 以 看 到 ，Python 在 初始 化 过 程 中 确实 进入 了 site py， 所 以 才 有 了 右 侧 的 输出 。 而 这 
个 site.py 也 正 是 Python 能 正确 加 载 位 于 site-packages 目录 下 的 django 的 关键 , 我 们 可 以 
猜测 ， 应 该 就 是 这 个 site.py 将 site-packages 目录 加 入 到 了 前 面 提 到 的 sys.path 中 。 而 这 个 








在 initsite 中 ,只 调用 了 PyImport_ImportModule 函数 ,这 个 函数 是 Python 中 import 
机 制 的 核心 所 在 ， 将 在 下 一 章 详 细 剖 析 。 在 这 里 ， 我 们 只 需要 知道 ， 这 个 函数 调用 ， 可 以 
简化 为 一 行 Python 代码 :“import site”。 就 是 在 这 里 ，Python 进入 了 site.py， 从 而 也 就 
能 输出 图 13-8 右 侧 的 “we are in site.py ”。 
在 site.py 中 ，Python 进行 了 两 个 动作 。 
1， 将 site-pakcages 路 径 加 入 到 sys.path 中 ， 对 于 不 同 平台 ， 又 分 不 同情 况 。 
> Win32 平台 : 9%PythonHome9%/lib/site-packages。 
> Unix/Linux 平台 : 
.  %sys.prefix%/lib/python<version>/site-packages (其 中 %sys.prefix% 为 Python 
的 sys.prefix); 
.  %sys.prefix%Nib/site-pythons 
es Psys.exec prefix%/lib/python<version>/site-packages; 
®  W%sysexec prefix%/lib/site-python. 
2.， 处 理 site-packages 目录 下 的 所 有 .pth 文件 中 的 所 有 路 径 加 入 到 sys,path 中 。 


对 于 第 2 条， 来 个 具体 的 例子 ， 在 我 的 site-packages 目录 下 ， 有 一 个 wx:pth， 是 安装 
wxPython 时 装 入 的 路 径 文件 。wx.pth 的 内 容 如 下 : 


YY 


{x 
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了 了 





好 了 ， 现 在 你 可 以 自己 在 site-packages 中 写 一 个 module， 然 后 添加 一 个 pth 文件 ， 看 
看 能 否 正确 地 在 Python 中 对 你 的 module 进行 import 动作 。 

到 现在 ，Python 中 绝 大 部 分 重要 的 初始 化 动作 都 已 经 完成 了 ， 好 了 ， 我 们 来 看 一 看 完 
成 这 些 初始 化 动作 之 后 Python 为 我 们 准备 了 什么 重要 的 东西 ， 这 些 东西 就 是 我 们 在 正式 
运行 Python 程序 时 可 以 利用 的 资源 ， 如 图 13-9 所 示 。 








ct 一 me 


图 13-9 完成 初始 化 后 的 环境 
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13.3 激活 Python 虚拟 机 


到 了 这 里 ，Python 已 经 完成 了 执行 程序 所 必需 的 基础 设施 的 建设 ， 但 是 我 们 认为 ， 初 
始 化 的 动作 还 没有 真正 完成 ， 当 Python 真正 地 进入 到 了 我 们 在 第 2 部 分 中 详细 剖析 的 字 
节 码 虚拟 机 后 ， 初 始 化 的 阶段 才 算 真正 完成 ， 

“有 般 地 ，Python 有 两 种 运行 的 方式 ， 一 种 是 在 命令 行 下 的 交互 式 环境 ; 另 一 种 则 是 以 
Python abc.py 的 方式 运行 脚本 文件 。 看 上 去 这 两 种 方式 有 些 不 同 ， 但 实际 上 ， 正 如 我 们 马 
上 将 要 看 到 的 ， 这 两 种 执行 方式 将 殊途同归 ， 进 入 同一 个 字 节 码 虚 拟 机 。 

Python 在 Py_Iinitialize 成 功 完成 之 后 ， 最 终 将 调用 PyRun_AnyFileExFlags; 









人 
2 \ re L 
yaLD 2 


如 果 以 脚本 文件 方式 运行 Python， 那 这 里 的 filename 就 是 文件 名 ， 比 如 abc.py; 而 如 
有 果 是 以 交互 式 方式 运行 Python， 则 filename 为 NOLL， 所 以 会 为 pyRun_AnyFileExFlags 
传 入 一 个 “<stain>”。 与 之 对 应 的 ， 第 一 个 参数 fp 或 是 指向 了 打开 的 脚本 文件 ， 或 是 指 
向 了 系统 的 标准 输入 流 scain。 至 于 最 后 一 个 参数 是 一 些 编译 Python 源 代码 时 可 能 会 用 到 
的 编译 参数 ， 大 多 数 情况 下 ， 都 不 会 指定 编译 参数 ， 所 以 我 们 不 考察 这 个 参数 。 





A 


Python 通过 py_Farstnteractive 来 判断 fp 是 否 指 向 了 标准 输入 流 ， 如 果 是 ， 则 表 
明 Python 是 以 交互 式 的 方式 运行 的 ， 从 而 进入 PyRun_TnteractiveLoopFlags; 而 脚本 
文件 则 进入 另 一 条 路 径 pykun_simpleFilegxFlags， 别 着 急 ， 过 一 会 就 可 以 看 到 ， 两 条 
路 径 最 终 又 会 融入 同一 条 路 径 。 
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13.3.1 ”交互 式 运行 方式 


我 们 先 来 看 看 Python 以 交互 式 方式 运行 时 的 情形 《〈 见 代码 清单 13-9)。 
代码 清单 13-9 
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处 分 别 设置 了 在 交互 式 环境 中 每 天 和 我 们 “face to face” 的 两 个 提示 符 。 然 后 ， 在 [3] 处 调 
用 的 PyRun_InteractiveOnerlags 中 ， Python 完成 了 至 关 重 要 的 两 步 ， 如 代码 清单 13-9 
所 示 。 
代码 清单 13-9 的 [4j 和 和 [5] 分 别 有 如 下 含义 : 
[4] 调用 pgyParser_ParseFileFlags， 对 用 户 在 交互 式 环境 下 输入 的 Python 语句 进行 编 
译 ， 其 结果 是 构造 与 Python 语句 对 应 的 抽象 语法 树 (AST)， 并 返回 AST。 
[5] 调用 run_mode， 在 run_mode 中 ， 将 最 终 完 成 对 用 户 输 入 语句 的 执行 动作 。 关 于 这 
注意 到 Python 在 进入 run_mode 之 前 ,会 将 _main__module 中 维护 的 PyDictObject 
对 象 取 出 ， 作 为 参数 传递 给 run_mode， 这 个 参数 关系 极为 重大 ， 实 际 上 这 里 的 参数 a 就 
将 作为 Python 虚拟 机 开始 执行 时 当前 活动 的 Erame 对 象 的 1ocal 名 字 空 间 和 global 名 
字 空 间 。 


13.3.2 ”脚本 文件 运行 方式 
接 下 来 ， 我 们 看 一 看 直接 运行 脚本 文件 的 方式 〈 见 代码 清单 13-10)。 
代码 清单 13-10 
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很 显然 ， 脚 本 文件 的 执行 流程 虽然 和 交互 式 执行 方式 的 流程 在 pyRun_simple- 
FileExFlags 中 被 分 流 了 ， 但 是 ， 它 们 都 有 着 相同 的 动作 。 同 交互 式 执行 方式 一 样 ， 脚 本 
文件 的 执行 流程 最 后 也 进入 了 run_mode， 而 且 也 同样 地 将 _main_moduile 中 维护 的 
PyDictoObject 对 象 作为 local 名 字 空 间 和 global 和 名字 空间 传 入 了 run_mode。 在 这 里 ， 
我 们 可 以 更 清楚 地 通过 调用 run_node 时 的 变量 名 看 到 这 一 点 。 看 看 那个 run_mode 中 的 
参数 globals、liocals， 再 明显 不 过 了 。 

好 了 ， 欢 呼 吧 ， 在 ByRun_anyFileExEFlags 中 ， 两 种 执行 方式 分 道 扬 镰 ， 到 了 这 里 ， 
又 胜利 会 师 ， 现 在 是 一 起 杀 入 run_mode 的 时 候 了 。 


13.3.3 ”启动 虚拟 机 


从 run_mode 开始 ，Python 现在 只 剩 下 最 后 一 件 需要 完成 的 工作 了 ， 那 就 是 启动 字 节 
码 虚拟 机 ， 开 始 让 Python 成 为 一 个 有 生命 的 精灵 《 见 代码 清单 13-11)。 
代码 清单 13-11 





Python 汤 码 前 六 一 一 次 诬 攻 莱 动态 语言 类 心 横 术 
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在 代码 清单 13-11 的 [J 处 ，run_mode 接 过 传 入 的 Ast， 倒 手 就 传 入 PyAST_Compile 
中 ， 在 这 个 函数 中 ，Python 基于 asm， 最 终 完 成 了 字 节 码 的 编译 工作 ， 并 且 创 建 了 一 个 我 
们 已 经 非常 熟悉 的 pycodeobject 对 象 。 至 于 完整 的 编译 过 程 ， 这 又 是 另 一 个 重大 的 话题 
wh 

而 在 接 下 来 的 代码 清单 13-11 的 [2] 处 ，Python 已 经 做 好 了 一 切 准备 工作 ， 开 始 通过 
pyEval_Evalcode 着 手 唤 醒 字 节 码 虚拟 机 。 








从 操作 系统 为 Python 创建 进程 开始 ， 到 这 里 ， 经 过 了 如 此 多 的 跌跌撞撞 ， 我 们 终于 
看 到 了 黎明 的 归 光 。 在 这 里 ， 我 们 看 到 了 在 分 析 函 数 机 制 时 和 我 们 朝夕 相处 的 PyEval_ 
Evalcodesx， 看 到 了 已 经 深 深 印 入 我 们 脑海 的 pyFramsObject 对 象 ， 看 到 了 那个 掌控 
Python 世界 中 无 数 对 象 生生 灭 灭 的 字 节 码 虚 拟 机 一 一 pyEval_Evalrramegx。 我 们 曾经 在 
那里 探索 了 很 入 ， 挖 气 了 很久， 现在 ， 我 们 再 一 次 回 到 起 始 的 地 方 ， 终 于 有 了 一 种 融会 贯 
通 的 顿悟 。 
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从 Python 进程 被 创建 ， 到 Python 字 节 码 虚 拟 机 被 唤醒 ， 再 到 之 后 执行 引擎 循 环 往复 
地 执行 字 节 码 ， 这 个 过 程 已 经 清晰 地 展现 出 来 了 。 虽 然 还 有 很 多 细节 隐藏 在 幕后 ， 但 是 对 
于 Python 的 骨架 ， 我 们 已 经 看 清 了 ， 到 了 此 时 ，Python 再 也 不 是 什么 神秘 的 东西 了 ， 它 
应 该 从 云端 沙 到 地 面 ， 成 为 你 手中 的 玩具 了 @。 


13.3.4 名 字 空 间 


好 了 ， 现 在 我 们 来 玩 点 有 趣 的 东西 ， 来 看 一 看 激活 字 节 码 虚拟 机 的 过 程 中 ， 在 创建 
PyFrameObject 对 象 时 ， 所 设置 的 3 个 名 字 空 间 : local、 global、 builtin ( 见 代 码 清 
单 13-12)。 


代码 清单 13-12 
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这 里 的 tstate 是 从 Pygval_EvalcoaeEx 中 传 入 的 ， 实 际 上 也 就 是 在 图 13-3 中 所 示 的 
那个 _pyThreads tate CUurrernts 






显然 ， 在 PyFrame_New 的 代码 清单 13-12 的 [1] 处 设置 builtin 名字 空间 时 ， 这 里 的 
back (tstate->frame) 蚌 NULL， 因 为 这 是 Python 为 当前 线程 创建 的 第 一 个 PyFrame- 
object 对 象 ， 所 以 builtins = PyDict_GetItemlglobals，builtin_object) 一 定 会 
执行 。 在 前 面 我 们 已 经 知道 ， 这 个 globals 就 是 _main _ mogule 中 维护 的 dict， 那 
builtin_object 是 什么 东西 呢 ? 还 记得 吗 , 在 分 析 Py_tnitializegx 时 , 我 们 曾经 提 到 
过 它 ， 现 在 我 们 来 复习 一 下 : 


显然 , builtin_object 是 PystringObject 对 象 , 而 其 维护 的 字符 串 是 “builtins__”， 
再 看 看 图 13-7 中 ， 通 过 执行 air ( ) 显示 出 来 的 _main moGule 中 dict 的 内 容 ， 没 错 ， 
正 是 有 一 个 “_ builtins, ”所 以 在 PyFrame_New 中 设置 的 builtin 名 字 空 间 实际 上 
就 是 我 们 在 前 面 已 经 照 过 很 多 次 面 的 _ builtin__ module。 


当然 ， 如 果 back 并 不 为 空 ， 那 么 builtins 将 是 back->puiltins， 稍 一 推理 ， 我 们 
就 能 发 现 ， 这 种 机 制 意味 着 这 样 一 个 事实 : Python 所 有 的 线程 都 共享 同样 的 builtin 名 
字 空 间 。 

同样 ， 我 们 可 以 看 到 在 PyFrame_New 中 的 代码 清单 13-12 的 圈 处 ，globals 被 设置 成 
了 _main module 中 的 dict， 而 [3] 处 对 local 名 字 空 间 的 设置 则 复杂 了 很 多 ， 但 是 在 
这 里 (激活 Python 字 节 码 虚 拟 机 时 )，local 名 字 空 间 和 .global 名 字 空 间 一 样 ， 也 被 设 
置 成 了 __ main_module 中 的 dict。 
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在 Python 源 代 码 中 添加 输出 信息 ， 当 执行 任意 一 个 Python 脚本 文件 demo.py 时 ， 可 
以 看 到 输出 结果 正如 我 们 所 预期 的 那样 ， 如 图 13-10 所 示 。 


CATHHHHTHTHHHHHHH 不 一 > 在 built 二 DG 十 十 十 小 十 小 中 中 十 生 吊 十 证 十 十 生 十 二 十 站 十 十 让 
38... input ... round dir range ... Attributegprror OverflowError WindowsError 
9 

















很 们 牛牛 本本 二 寺 趟 二 十 站 十 二 本 十 本 二 十 二 二 中 二 生生 下 一 > 玉 _globals 十 十 十 二 小 直 十 十 十 才 才 十 趟 十 十 十 志 十 十 二 二 十 十 
gi builtins__ _name _ _file _ _doc __. 

12 

站 委 十 二 证 生生 直 直路 小 中 二 直下 本 十 二 中 重卡 十 丰 古市 企 一 光 丰 OCBL 和 小 小 十 二 二 寸 中 证 十 十 二 二 站 直 让 二 十 二 站 十 中 十 
BE builtins name_ _ _ file ou 









图 13-10 ”查看 Python 虚拟 机 启动 时 的 名 字 空 间 


由 于 __ buiitin_ module 中 的 属性 太 多 ， 所 以 这 里 只 显示 了 一 部 分 。 有 一 点 奇怪 的 
是 ， 我 们 在 前 面 看 到 ， 在 Py_Ttnitialize 完成 时 ，_main_ ”moedule 中 似乎 并 没有 
_ File 属性 。 没 错 ， 实 际 上 ， 这 个 属性 是 在 PpyRun_simpleFileExFlags 中 加 入 的 ， 可 
以 参考 前 面 关于 PyRun_SimpleFileExFlags 的 代码 。 与 图 13-10 对 应 ， 13-11 显示 了 
交互 式 环境 下 的 local 名 字 空 间 和 global 名 字 空 间 。 


>>> ahowDict(g 

(showDict", <function ahowDict at OxDO0CD7630>) 

(* builtins _", <module * builtin __" {built-in)>) 
(? name __ a 2 

和 doc A None) 

>>> showDict(locals()) 

("showDict', <function showDict at Dx0acnp75630>) 
(”_builtins _', <module "builtin_ ” (built-in)>) 
(7 name _", ”Main __") 

(* doc "fr None) 


13-11 ”交互 式 环境 下 的 local 名 字 空间 和 global 名 字 空 间 


现在 我 们 可 以 从 理论 上 推导 一 下 ， 当 执行 air () 时 ,Python 执行 引擎 首先 要 找到 符号 
“airn 对 应 的 对 象 。 从 图 13-10 可 以 看 到 ， 这 个 符号 位 于 builtin 名 字 空 间 中 。 而 且 ， 
实际 上 它 对 应 着 bltmodule.c 中 的 builitin_dir 函数 ， 这 个 函数 将 显示 local 名 字 空 间 中 
的 属性 。 我 们 知道 ， 名 字 空 间 这 个 概念 在 Python 中 实际 就 是 一 个 aict， 所 以 air() 实 际 
显示 的 就 是 对 应 local 名 字 空 间 的 dict 的 键 的 集合 。 同 样 是 在 图 13-10 中 ， 可 以 看 到 ， 
1ocal 名 字 空 间 实际 就 是 _mair_module 中 的 那个 dict, 所 以 air 的 输出 你 是 不 是 已 经 
猜 到 了 呢 ? 显然 ， 在 交互 式 环境 下 输入 air 的 话 ， 这 个 执行 的 过 程 还 是 一 样 的 ， 但 是 正如 
图 13-11 所 示 的 情况 ，local 名 字 室 间 中 不 会 再 有 __file_ 这 个 属性 了 ， 还 记得 吗 ， 原 因 
就 在 于 交互 式 方式 曾经 有 一 段 时 间 和 脚本 文件 执行 方式 分 道 扬 贸 ， 
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在 之 前 的 章节 中 ， 我 们 考察 的 东西 都 是 局 限 在 一 个 模块 《在 Python 中， 就 是 module ) 
内 。 然 而 一 个 现实 中 的 程序 不 可 能 只 有 一 个 模块 , 更 多 的 情况 下 , 一 个 程序 会 有 多 个 模块 ， 
而 模块 之 间 存 在 着 引用 和 交互 ， 这 些 引用 和 交互 也 是 程序 的 一 个 重要 组 成 部 分 。 本 章 剖 析 
的 就 是 在 Python 中 ， 一 个 模块 是 如 何 加 载 、 引 用 另 一 个 模块 中 的 功能 的 。 我 们 的 研究 从 
Python 中 的 一 个 module 如 何 从 硬盘 中 被 加 载 到 内 存 中 开始 。 


14.1 import 前 奏 曲 


我 们 从 import.py 开始 研究 Python 中 对 module 的 动态 加 载 机 制 (以 后 简称 动态 加 载 机 
制 )， 对 Python 中 动态 加 载 机 制 的 深入 理解 也 是 编写 Python 扩展 模块 的 关键 所 在 ， 当 你 明 
了 Python 是 如 何 基于 硬盘 上 的 py 文件 或 (注意 ;在 python 2.5 中 ， 对 dl 后 组 名 的 支 
持 被 删除 了 ， 但 是 可 以 将 dl 后 缀 改 为 pyd 后 级 ， 以 重新 获得 Python 2.5 的 支持 。 尽 管 如 
此 ， 在 后 续 的 描述 中 ， 我 们 依然 称 dll 文件 而 非 pyd 文件 ) 文件 中 的 内 容 来 创建 Python 可 
识别 的 运行 时 模块 后 ， 编 写 Python 的 扩展 模块 自然 就 是 水 到 拒 成 的 事 了 。 







Fr 
- TEN ME 1 | 


这 个 import.py 文件 简单 无 比 ， 所 以 其 编译 之 后 所 产生 的 常量 表 (co_consts) 和 符号 
表 (co_names) 也 是 极其 地 简单 ， 如 图 14-1 所 示 。 


Python 涉 弛 出 新 一 一 深 属 区 项 动 芒 泛 言 北 尼 藤 太 





344 更 第 14 章 Python 模块 的 动态 加 载 机 制 





<intemStr index="0" lendth="3" value="sys’ /> 
as 


图 14-1 import py 编译 结果 中 的 常量 表 和 符号 表 

可 以 看 到 ，import 的 结果 最 终 将 导致 Python 虚拟 机 通过 指令 “9 smoORE_NAME 0” 将 
sysmodule 存储 在 当前 PyFrameObject 的 1ocal 名 字 空 间 中 。 当 在 import 之 后 使 用 sys 
module， 比 如 执行 “print sys.path” 时 ，Python 毁 拟 机 就 能 很 轻松 地 找到 “ays” 这 
个 符号 了 。 

LOAD_CONST 指令 和 STORE_NRME 指令 都 是 我 们 非常 熟悉 的 了 ， 显 然 这 些 通用 指令 与 
Python 的 import 机 制 并 没有 什么 太 大 的 联系 。 其 实 从 指令 的 名 字 就 能 看 出 , IMPORT_NAME 
指令 一 定 是 与 Python 的 import 机 制 息息相关 的 。 我 们 来 看 看 Python 对 于 字 节 码 TMPORT_ 
NAME 的 实现 〈 见 代码 清单 14-1)。 
代码 清单 14-1 









在 代码 清单 14-1 的 [1] 之 前 ,w 是 PystringObject 对 彰 *sys”,v 是 通过 “3 LOAD_CONSm 
1” 指 令 被 压 入 到 运行 时 栈 中 的 PyNone， 而 4 则 是 “0 LoaD_coNsT 0” 指 令 被 压 入 到 运 
行 时 栈 的 那个 -1， 为 什么 莫名 其 妙 钴 出 来 个 -1， 在 以 后 的 剖析 中 我 们 会 知道 原因 。 现 在 ， 

w、v、u 的 身份 都 查 明 白 了 ， 那 么 那个 x 又 是 什么 呢 ? 


在 上 一 章 对 Python 初始 化 的 分 析 中 ， 我 们 看 到 ，f-sf_buiitins 实际 上 就 是 
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buiitin moaule 所 维护 的 那个 dict， 而 其 中 的 “import_” 符号 ， 正 对 应 
bltinmodule.c 中 的 builtin import 函数 ,不 过 在 上 一 章 分 析 Python 的 初始 化 动作 时 ， 
我 们 已 经 看 到 ， 在 初始 化 _builtin__ module 时 ， 这 个 函数 已 经 据 身 一 变 ， 被 包装 成 了 一 
个 pycFunction- Object 对象 了 。 所 以 这 里 的 x 对 应 的 就 是 这 个 BycEunctionobject 对 
象 。 


在 代码 清单 14-1 的 [中 处 , 有 一 个 依据 u 的 值 而 进行 的 判断 , 在 我 们 的 例子 中 ,u 为 -1， 
所 以 程序 流程 进入 的 是 else 下 的 分 支 ， 男 一 分 支 以 后 会 详细 介绍 。 Python 将 w、v 和 当前 
活动 的 pyFrameObject 对 和 象 中 的 global 名 字 室 间 、local 名 字 空 间 一 起 打 包 ，, 做 成 了 一 
个 pyiipieObject 对 象 , 其 中 包含 了 Python 在 此 后 进行 import 动作 时 所 需 的 所 有 信息 。 
在 创建 了 这 个 tuple 对 象 之 后 ， 它 和 代表 import 操作 的 Pycrunctionobjet 对 象 一 起 联 
手打 入 了 PyBval_Cailobject: 
reaveureln 






这 里 的 axg 就 是 前 面 刚刚 打包 好 的 pyTupleObject 对 象 ,PyEval_CallobjectWith- 
keyworas 仅仅 是 简单 地 检查 了 参数 的 有 效 性 ， 然 后 就 调用 了 Pyobject-call。 

这 个 pyopject_call 我 们 可 是 非常 熟悉 了 啊 ， 以 前 在 剖析 Python 函数 机 制 时 就 和 这 
位 老兄 打 了 不 少 交道 。 我 们 知道 ，pyobject_call 是 一 个 相当 范 型 的 函数 ， 它 将 对 一 切 可 
调用 的 《callable》 对 象 进 行 “ 调 用 ”操作 。 具 体 地 说 ， 最 终 Pyobject_call 将 调用 func 
参数 对 应 的 类 昏 对 象 中 所 定义 的 tp_call 操作 。 
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我 们 刚才 提 到 ,这 个 func 对 象 实际 上 是 一 个 pycrunctionobject 对 象 ， 那 么 它 对 应 
的 类 型 对 象 是 什么 呢 ? 正 是 pycFunction_Type: 






在 pyCFunction_imype 中 ，tp_call 被 设置 成 了 pycPunctiot_callis 如 此 说 来 ， 对 
于 Python 虚拟 机 而 言 ， 这 个 BycFuncEionobject 对 象 确实 是 一 个 可 调用 的 对 象 ， 好 ， 那 
就 沿 着 它 给 我 们 指示 的 pycFunction_call 函数 ， 一 路 追踪 下 去 〈 见 代码 清单 14-2)。 
代码 清单 14-2 





在 pycrunction_call 中 ，Python 虚拟 机 从 pycFunctionobject 对 象 中 抽取 出 了 它 
所 维护 的 那个 隙 数 指针 一 一 meth， 这 个 指针 也 就 是 指向 C 函数 builtin__import_ 的 
函数 指针 。 然 后 ，Python 虚拟 机 直接 利用 之 前 创建 的 那个 EyTupleobject 对 象 arg 调用 
这 个 函数 指针 所 指向 的 函数 一 builtin__ import_。 到 了 这 里 ， 真 正 实现 import 机 
制 的 操作 手 被 我 们 找到 了 ，Python 从 接收 到 import 的 指令 开始 ， 到 现在 ， 才 真正 地 找 准 
目标 ， 备 足 粮草 ， 开 始 真 枪 实弹 地 进行 import 动作 了 。 
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我 们 知道 ， 在 Python 中 ， 从 语法 层面 讲 ，import 有 很 多 种 写法 ， 比 如 : 





从 ;import 的 | 目标 来 说 ， 可 以 有 系统 的 standard module， ， 远 前 用 自 己 写 的 module, 
而 用 户 module 中 又 分 Python 语言 写 的 module 和 C 诸 言 写 的 以 dll 形式 存在 的 module。 
我 们 将 一 一 介绍 各 种 语法 ， 各 种 目标 module 背景 下 Python 的 import 动作 。 考 虑 到 尽 可 
能 简洁 ， 在 展示 代码 时 ， 我 们 可 能 会 对 代码 进行 一 些 删 节 ， 比 如 一 个 函数 中 可 能 会 处 理 
import sys 这 样 的 语法 ， 也 会 处 理 import xml , sax 这 样 的 语法 ， 那 我 们 在 展示 代码 时 ， 
如 果 考 虑 的 只 是 import sys 这 样 的 语法 ， 则 会 删节 处 理 import xmlL.sax 这 样 语法 的 代 
码 。 为 了 更 好 地 理解 Python 的 import 机 制 ， 请 在 阅读 时 对 照 参 考 Python 源 代码 ， 


14.2 ”Python 中 import 机 制 的 黑 盒 探 测 


同 Java 中 的 package 机 制 、C++ 中 的 namespace 机 制 一 样 ，Python 通过 module 机 制 
和 稍 后 会 挖 所 的 package 机 制 来 实现 对 系统 复杂 度 的 分 解 ， 以 及 保护 名 字 空 间 不 受 污染 。 

通过 module 和 package， 我们 可 以 将 某 个 功能 、 某 种 抽象 进行 独立 的 实现 和 维护 ， 在 
module 和 package 的 基础 之 上 构建 软件 ， 这 样 不 仅 使 得 软件 的 架构 清晰 ， 而 且 也 能 很 好 地 
实现 代码 复 用 。 

在 Python 中 ,module 和 package 通过 import 机 制 融入 Python, 本 节 中 ,我 们 将 对 Python 
中 的 import 机 制 进 行 黑 愈 探 测 。 所 谓 黑 僵 探测 ， 指 的 是 我 们 将 通过 各 种 不 同 的 import 动 
作 观 察 Python 在 动态 加 载 module 或 package 时 会 进行 什么 样 的 动作 ， 以 及 将 对 执行 环境 
产生 什么 样 的 影响 。 

在 本 节 中 ， 我 们 并 不 涉及 Python 中 的 import 机 制 是 如 何 实现 的 ， 而 是 通过 这 样 的 黑 
盒 ， 对 import 机 制 建立 一 个 整体 的 框架 性 的 认识 ， 为 下 一 节 开 始 的 对 import 机 制 的 白 盒 
探测 一 一 也 就 是 源码 分 析 一 一 打下 坚实 的 基础 。 


14.2.1 标准 import 


14.2.1.1 ”Python 内 建 Module 


对 于 Python 用 户 ，sys moadule 铠 怕 是 一 个 非常 熟悉 也 使 用 得 非常 频繁 的 module， 我 
们 对 import 机 制 的 黑 僵 探测 也 从 sys _module 开始 。 
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在 对 Python 运行 环境 的 初始 化 的 分 析 中 ， 我 们 看 到 了 air， 这 个 小 工具 是 我 们 探测 
import 机 制 的 终极 法 宝 。 如 果 你 在 Python 的 交互 式 环境 下 键入 helpltdair)， 你 会 看 到 在 
执行 dir 操作 时 ， 如 时 没有 参数 ， 则 会 打印 出 当前 的 1ocal 名 字 空 间 的 所 有 符号 ， 而 如 果 
有 参数 ， 则 会 将 参数 视 为 对 象 ， 输 出 该 对 象 的 所 有 属性 。 我 们 的 第 一 个 探测 就 是 看 一 看 
import 动作 对 当前 名 字 空 间 的 影响 ， 如 图 14-2 所 示 。 


>>> type (ays) 
<type "module'> 


图 14-2 引入 sys module 对 名 字 空 间 的 影响 
当 Python 初始 化 完成 之 后 ， 当 前 名 字 空 间 中 只 有 “__ puiltins_”“ doc__”、 


“_name_"3 个 符号 ， 而 在 进行 了 import 的 动作 之 后 ， 当 前 1ocal 名 字 空 间 中 增加 了 
一 个 “sys” 的 符号 ， 而 且 通 过 type 操作 ， 我 们 发 现 ， 在 这 个 “sys” 的 符号 背后 ， 实 际 
上 隐藏 着 一 个 module 对 和 象 ， 在 Python 内部， 实际 上 就 是 一 个 EyModuleobject 对 象 。 很 
显然 ，Python 中 的 import 机 制 影响 了 当前 local 名 字 空 间 ， 使 得 加 载 的 module 在 local 


名 字 空 间 成 为 可 见 的 , 而 引用 该 module 的 方法 正式 通过 module 的 名 字 , 即 这 里 的 “ sys ”。 


细心 的 读者 一 定 还 记得 在 之 前 对 Python 运行 环境 初始 化 的 分 析 中 ， 我 们 发 现 Python 
在 初始 化 时 ， 就 将 sys module 加 载 到 了 内 存 中 ， 实 际 上 ，Python 是 将 一 大 批 的 module 
加 载 到 了 内 存 中 。 但 是 为 了 使 local 名 字 空 间 能 够 达到 最 干净 的 效果 ，Python 并 没有 将 这 
些 符 号 暴露 在 当前 的 Local 名 字 空 间 中 , 而 是 需要 用 户 显 式 地 通过 import 机 人 制 通知 Python: 
我 需要 将 这 个 符号 引入 到 local 名 字 空 间 中 ， 以 便 我 的 程序 使 用 这 个 符号 背后 的 对 象 。 


这 些 预 先 被 加 载 进 内 存 的 module 存放 在 sys.modules 中 , 下面 的 图 14-3 展示 了 我 们 如 
何 将 存放 在 yi modules 中 的 os 引入 到 local 名 字 空 间 中 ，。 





i in sys :modules .items (): 
rinre Ltewm 





"os, 'show hodules ‘Sys") 


图 14-3 深 过 对 os module 的 加 载 
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可 以 看 到 , os module 是 从 CA\Python25Nlibvos.pyc 这 个 文件 中 引入 的 , 它 是 一 个 Python 
的 内 建 module。 通 过 import 机 制 ， 这 个 module 被 引入 到 了 当前 的 local 名 字 空 间 中 。 从 
两 个 不 同 的 记 操作 中 可 以 看 到 ， 毫 无 疑问 ，Python 虚拟 机 的 import 动作 引入 的 正 是 事先 
已 经 在 Python 初始 化 阶段 被 加 载 到 sys.modules 集合 中 的 os module。 


14.2.1.2 ”用 户 自 定义 Module 


接 下 来 ， 我 们 看 一 看 当 Python 对 非 内 建 的 module 进行 import 时 所 发 生 的 动作 ， 在 
Python 中 ， 用 户 可 以 通过 py 文件 创建 自己 的 module， 也 可 以 通过 C 语言 创建 册 ， 生 成 
Python 的 扩展 module, 这 些 都 不 是 Python 的 内 建 module。 因 为 我 们 在 这 一 节 只 是 做 import 
机 制 的 框架 性 黑 盒 探测 ， 并 不 探讨 import 机 制 的 实现 ， 所 以 这 里 我 们 并 不 区 分 py 文件 和 
dll 文件， 只 以 py 文件 作为 例子 。 我 们 准备 一 个 简单 的 module 一 hello.py: 


oa Pa i a Me Wi a po 


1 a bE. iu [ 


在 这 个 简单 的 module 中 ， 我 们 仅仅 创建 了 两 个 符号 ，a 和 b。 图 14-4 显示 了 Python 
对 hello module 的 import 动作 将 对 Python 产生 怎样 的 影响 。 


>>> Tnpnort Sy 
>>> dsE containHello(): 
return "hello' in sys.modules,.keys!() 


>>> contsinHello'() 
Falss 

>>> imnort helilo 
>>> contairniiellot) 


"containHello, "hello’, ‘sys"] 


>>> id(sys.modules[’'hello"]) 
13861136 

>>> type (hello) 

<type module'> 





图 14-4 探索 对 hello module 的 加 载 


操作 evpet) 的 结果 显示 ，import 机 制 确实 创建 了 一 个 新 的 module。 而 令 人 惊奇 的 是 ， 
Python 对 hello module 进行 import 操作 的 结果 不 仅 将 hello module 引入 到 了 当前 的 
1ocal 名 字 空 间 中 ， 而 且 这 个 被 动态 加 载 的 module 也 在 sys.modules 中 拥有 了 一 席 容 身 之 
地 。 更 进一步 ， 从 两 个 ia() 操 作 的 结果 看 来 ，local 名 字 空 间 中 的 符号 “hello” 各 
sys.modules 中 的 符号 “hello” 背 后 隐藏 的 其 实 是 同一 个 pyModuleObject 对 象 。 


探索 “hello” 这 个 符号 背后 隐藏 的 这 个 pyModuleobjeet 对 象 也 非常 地 有 意义 ， 图 


Python 源码 剖 折 一 深 属 帮 贰 动 丰 短语 硼 心 项 大 





350 嘱 第 14 章 Python 模块 的 动态 加 载 机 制 


14-5 展示 了 对 hello 内 部 的 探测 。 


>>> dir(hello) 
[” hunltlnd hn 0 My IG 2 
>>> PIC hello,. dict “keysl() 
下 
>>> print hello. ‘name 









>>> print hello,. file _ 
C: \Python25\Lib\idlelib\hello.py 
14-5 探测 hello module 的 内 部 信息 


这 里 可 以 看 到 ,module 对 象 内 部 实际 上 是 通过 一 个 dict 在 维护 所 有 的 (属性 , 属性 值 )。 
对 ， 说 白 了 ， 同 class 一 样 ，module 又 是 一 个 名 字 空 间 。 从 pyModuleDbject 结构 的 定义 
我 们 也 能 清楚 地 看 到 这 一 点 , 在 module 内 部 ， 有 一 些 关于 module 的 元 信息 ， 比 如 module 
的 名 字 ，module 所 容 身 的 文件 名 。 


如 果 这 时 你 查看 hello.py 所 在 的 目录 ， 这 里 又 有 一 个 令 人 惊奇 的 发 现 ， 我 们 会 看 到 
hello.py 文件 经 过 Python 编译 后 存储 编译 结果 的 hello.pyc 文件 ,由 此 可 见 , Python 在 import 
的 过 程 中 ， 对 hello.py 暗中 下 了 手 ， 生 成 了 hello.py 的 编译 结果 hello.pyc。 


在 hello module 中 ， 还 有 一 个 奇怪 的 符号 ，_builtins__， 如 果 你 还 记得 ， 在 Python 
初始 化 完成 之 后 ， 我 们 敲 入 air()， 显 示 的 结果 中 同样 有 一 个 “_buileins_ ”符号 ， 
这 两 个 符号 有 什么 关系 呢 ? 图 14-6 展示 了 我 们 对 这 个 疑问 的 探测 。 


>>> dir() 

["_ builtins “，"” doc ', " Name ', ‘containHello, hello', vsys"] 
>>> dir(hello) 

PEND TO ne 

>>> type( builtins ) 


. builtins  ) 


>>> id(hello. builtins ) 
11Z286544 


14-6 module 中 的 __builtins_ 与 local 名 字 空 间 中 的 _builtins 


原来 当前 的 local 名 字 空 间 中 的 “_builtins ”和 hello module 中 的 
“”_builtins__” 旨 然 名 字 完 全 一 样 ， 但 却 是 完全 不 同 的 家 伙 ， 一 个 是 module 对 象 ， 而 
另 一 个 是 dict 对 象 ， 从 两 者 的 ia 也 可 看 出 ， 它 们 两 个 完全 没有 关系 。 


但 是 ,等 一 等 ， 它 们 真 的 没有 关系 吗 ? 如果 没有 关系 ， Python 为 什么 会 将 相同 的 名 字 
赋予 它们 ， 徒 增 迷 惑 ? 刚才 我 们 提 到 ， 在 module 中 ， 实 际 上 是 通过 一 个 dict 在 维护 属性 
的 名 字 和 值 之 间 的 关系 , 既然 local 名 字 空 间 中 的 builtins__” 符 号 对 应 一 个 module 
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对 象 ， 而 hellomoalile 中 的 “ .builtins_ ”符号 对 应 一 个 dict 对 象 ， 有 没有 可 能 …… 
咽 ， 我 们 来 探测 一 下 ， 如 图 14-7 所 示 。 


>>> id(sys.modules{’ builtin ']._ dict __) 
11286544 


图 14-7 module 中 的 _builtins_ 与 local 名 字 空 间 中 的 _builtins_ 间 的 联系 


从 图 14-7 中 我 们 发 现 ， 果 然 ，hellomodule 中 的 _builicins_ 符 号 对 应 的 aiect 正 
是 当前 名 字 空 间 中 _builtins_ 符号 对 应 的 module 对 象 所 维护 的 那个 dict 对 象 ， 而 其 实 
它们 两 个 都 只 是 表象 ， 它 们 背后 的 真 身 实际 上 就 是 我 们 在 对 Python 运行 环境 初始 化 分 析 
中 看 到 的 那个 _builcin_module 及 它 所 维护 的 dict, 这 个 builtin-_modnle 和 其 他 
被 Python 预先 加 载 进 内 存 中 的 module 一 样 ， 维 护 在 sys.modules 中 。 





14.2.2” 垦 套 import 


上 面 我 们 研究 了 对 于 单个 独立 的 module 的 import 动作 , 下 面 我 们 来 探索 一 下 履 套 的 
import 动作 ， 所 谓 慌 套 的 import 动作 ， 即 是 指 当 Python 在 执行 “import A” 时 , 在 A 
这 个 module (Apy)》 中 又 激活 另 一 个 import 动作 ， 比 如 “import B"。 我 们 来 看 看 这 时 
会 发 生 什么 有 趣 的 事情 : 







在 usermodulel.py 中 ， 我 们 进行 了 一 次 import 动作 ， 加 载 usermoaule2， 而 在 
usermodule2.py 中 ， 我 们 又 一 次 激活 了 import 机 制 ， 加 载 sys modules。 首先 ， 我 们 需要 
对 usermodulel 进行 import 动作 ， 以 推倒 第 一 块 多 米 诺 骨牌 。 加 载 后 的 结果 如 图 14-8 所 
示 。 






dd a MA ae En "usermoduleli"] 










[BULA > SoM 3 ” Fle I = 7 'usermodule2°"] 
>>> dir(usermodulel.usermoduls2) 
[Er ] 


14-8 在 module 中 榜 套 import 操作 
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我 们 发 现 ， 在 usermodulel.py 和 usermodule2.py 中 进行 的 import 动作 并 没有 影响 到 
上 一 层 的 名 字 空 间 ， 而 只 是 影响 到 了 各 个 module 自身 的 名字 空间 ， 更 准确 地 说 ， 是 影响 
到 了 各 个 module 自身 所 维护 的 那个 dict 对 象 。 那 么 在 usermodulel.py 中 加 载 的 
usermodule2 是 否 会 影响 到 全 局 的 module 集合 ， 即 sys.modules 呢 ? 图 14-9 显示 ， 确 实 ， 
全 局 module 集合 受到 了 影响 。 





图 14-9 sys.modules 中 的 usermodule2 


实际 上 ， 所 有 的 import 动作 ， 不 论 是 发 生 在 什么 时 间 、 发 生 在 什么 地 方 ， 都 会 影响 到 
全 局 module 集合 ,这 样 做 有 一 个 好 处 , 即 如 果 程 序 的 另 一 点 再 次 import 这 个 module, Python 
虚拟 机 上 只 需要 将 全 局 module 集合 中 缓存 的 那个 module 对 象 返 回 即 可 ， 如 图 14-10 所 示 。 


>>> import usermodulei 

>>> import Sys 

>>> id{({usermodulel.usermodule2) 
13860912 

>>> id(sys.modules['usermodule2"]) 


13860912 

>>> import usermodule2 
>>> id(usermodule2) 
13860912 





14-10 ”从 系统 module 缓存 中 import 同一 个 module 


再 从 usermodulel 中 接 引 入 了 usermodule2 后 ， 我 们 在 当前 的 1ocal 名 字 空 间 中 再 一 
次 直接 引入 usermodule2， 从 3 个 id 操作 的 结果 可 以 看 到 ， 第 三 次 直接 引入 uaermodule2 
时 ， 确 实 返 回 了 已 经 被 缓存 在 全 局 module 集合 中 的 usermodule2。 


14.2.3 import package 


在 module 的 基础 上 , Python 又 提供 了 一 种 管理 module 的 机 制 , 这 就 是 package 机 制 。 
我 们 知道 ， 罗 辑 上 相关 联 的 一 些 class 应 该 经 常 聚 合 到 一 个 module 中 ， 同 样 地 ，Python 提 
供 的 package 机 制 与 module 机 制 是 类 和 似 的 ， 逻 辑 上 相关 联 的 一 些 module 应 该 聚合 到 一 个 
package 中 。 如 果 说 module 是 一 种 管理 class 函数 的 机 制 ,那么 package 就 是 一 种 管理 module 
的 机 制 。 当 然 ， 更 进一步 ， 多 个 较 小 的 package 又 可 以 聚合 成 一 个 较 大 的 package， 一 个 
典型 的 例子 是 Python 标准 库 中 的 xml 的 package。 在 这 个 package 中 ,多 个 module、package 
最 终 组 织 成 了 一 个 树 形 的 结构 ， 从 而 为 最 初 散乱 的 class 建立 起 了 一 种 结构 ， 通 过 这 种 结 
构 ， 方 便 了 类 的 管理 和 维护 ， 也 方便 了 用 户 的 使 用 。 图 14-11 显示 了 我 们 对 xml package 
的 模拟 结构 图 。 
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图 14-11 xml package 的 结构 


在 Python 中 , module 是 由 一 个 单独 的 文件 来 实现 的 , 可 以 是 py 文件 , 或 者 pyc 文件 ， 
甚 全 是 用 C 扩展 的 dl 文件。 而 对 于 package，Python 使 用 了 文件 夹 来 实现 它 ， 可 以 说 ， 
一 个 文件 来 就 是 一 个 package， 里 面容 纳 了 一 些 py、pyc 或 dll 文件 ,这 种 方式 就 是 把 module 
聚合 成 一 个 package 的 具体 实现 。 


我 们 从 一 个 最 简单 的 例子 开始 对 package 的 动态 加 载 机 制 进行 研究 ， 首 先 ， 需 要 建立 
一 个 package, 很 简单 ,就 是 创建 一 个 文件 夹 , 再 在 文件 夹 下 创建 一 个 py 文件 , 如 图 14-12 
所 示 。 















: 直 直 加 | 己 C:\Fython25\Lib\idielib\A 
p57 六 tank 
日 加 idielib 国 -" = Python Pile 
Dh 
癌 Icons 





14-12 无效 的 package 的 目录 结构 
下 面 我 们 来 对 package A 中 的 tank module 进行 import 操作 ， 如 图 14 13 所 示 。 


>>> Tmpnrt A. tan 












Traceback (most recent call least): 
File "pyshelli#8>", line 1, in <module> 
impart A,tank 
TImportError: No module mamed A,tank 
>>> Iimport A 












Tracehack (most recent call last): 

File "<pyshell#9>", 了 ne 1, in <modtil e> 
import A 

ImportError: No module named A 


图 14-13 对 package A 进行 import 动作 
我 们 尝试 了 两 种 方式 ， 结 果 Python 虚拟 机 都 不 认 账 ， 拢 出 了 异常， 说 是 找 不 到 A 或 
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Arank。 这 束 很 奇怪 了 ，a 和 .cank 远 在 天 边 ， 近 在 眼前 啊 ，Python 怎么 能 找 不 到 呢 ? 


原来 ， 并 不 是 任何 一 个 文件 夹 都 能 成 为 Python 虚拟 机 认可 的 合法 的 package， 只 有 在 
文件 夹 中 有 一 个 特殊 的 _init_.py 文件 ，Python 虚拟 机 才 会 认为 这 个 文件 夹 是 一 个 合法 的 
package。 即使 这 个 文件 中 什么 内 容 也 没有 , Python 虚拟 机 也 认为 这 是 一 个 合法 的 packages 
好 ， 那 我 们 在 A 中 再 为 a 创建 一 个 通 向 Python 世界 的 通行 证 : jinit_,py， 如 图 14-14 所 
Ia 


BIBc:\Python25\Lib\idielib\A 


>>> amport sys 

>>> (A) 

13851008 

>>> id(sys.modules[’A']) 


>>> id(A. tank) 
i136861104 
>>> id(ays.modules!'tank"]) 


Traceback (most recent cal Lavty): 
File "<pysheli#9>", line 1 in <moduLle> 
id(sysa,.modules[ "tank"]) 
KayBrror: tank’ 
>>> id(sys.modules[ A.tank”"]) 
i13861104 





图 14-15 对 package A 的 成 功 加 载 


在 图 14-15 中 我 们 看 到 ， 这 一 次 的 动态 加 载 机 制 确实 成 功 了 。 在 图 14-15 显示 的 结果 
中 ， 有 一 些 有 趣 的 现象 。 唱 然 我 们 加 载 的 只 是 a 中 的 cankmoaule， 但 实际 上 却 连 A 也 一 
起 加 载 进来 了 ， 可 以 看 到 ， 在 Python 中 ，module 和 package 之 间 的 区 别 实际 并 不 是 那么 
僵硬 ，package 也 可 以 像 module 一 样 被 加 载 ， 行 为 和 module 其 实 是 一 样 的 ， 所 以 在 
sys.modules 这 个 Python 系统 的 module 集中 营 中 ， 我 们 也 看 到 了 的 身影 。 


对 于 tank 的 访问 必须 通过 a.cank 来 实现 ， 这 样 有 一 个 好 处 ， 比 如 在 package B 中 也 
有 一 个 tank moaule， 那么 这 两 个 符号 都 能 加 载 进来 ， 通过 A .tank 和 B.tank 分 别 进 行 
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引用 ， 不 会 产生 名 字 冲 突 ， 这 一 点 ， 与 C++ 中 的 namespace 机 制 和 Java 中 的 package 机 人 制 
是 一 样 的 有趣 的 是 ,在 sys.modules 中 , 却 没有 名 为 “tank" 的 module, 具有 名 为 “A.tank” 
的 module， 仔细 想 一 想 ， 确 实 应 该 如 此 ， 否 则 A.tank 和 B.tank 在 sys.modules 中 如 何 能 
和 平 共 存 电 人 @。 


对 于 为 何 会 在 加 载 A.tank 的 同时 也 将 a 加 载 ， 可 能 我 们 会 有 些 疑 问 ， 人 毕竟， 这 可 能 
并 不 是 用 户 期 望 的 行为 , 但 是 对 于 Python 而 言 ， 这 是 必须 的 。 前 面 提 到 , 对 于 tank module 
的 引用 只 能 通过 A.tank 来 实现 , 根据 我 们 了 解 的 Python 虚拟 机 的 运作 机 理 ，Python 会 首 
先 在 当前 的 local 名 字 空 间 中 查找 符号 “za” 对 应 的 对 象 obja， 然 后 再 在 obja 的 属性 集 
合 (名 字 空 间 〉 中 查找 符号 “tankx”。 所 以 如 果 不 将 A 也 加 载 进 来 ， 则 当前 名 字 空 间 中 就 
无 法 搜索 到 符号 “A”， 而 对 tank module 的 引用 也 无 从 谈 起 。 


同时 ， 加 载 A 还 有 另外 一 个 好 处 ， 如 图 14-16 所 示 的 例子 。 


DC: hosp dlelib\A 


DR = arplane 
Fythoss Ril a Pythor Fe EE Pythort Hile 
日 己 idelib 国 汪汪 和 二 (Bs 0 xs 0 kB 





、 入 Icons 
图 14-16 合法 的 package 的 目录 结构 
在 package A 中 ， 有 两 个 module: tank 和 airplane， 并 且 ， 在 _init_.py 中 ， 我 们 


加 入 了 一 条 打印 “Hello tmport A” 的 语句 ， 通 过 依次 加 载 这 两 个 module， 来 观察 Python 
的 行为 ， 如 图 14-17 所 示 。 


>>> 1mport A. tan 


>>> import A, irplane 
>>> dir(A) 


| 六 下 Vi 了 A | ', "airplanse", tank"] 
>>> A._ path 
[exNNEython25SNNVILIPNNidLelipbVVA"]】 


>>> 





14-17 对 package 中 module 的 独立 加 载 


在 动态 加 载 tank module 时 ， 虽 然 会 连带 将 A 也 加 载 ， 但 是 并 没有 加 载 airplane， 这 

是 用 户 期 望 的 行为 。 再 次 加 载 aireplane module 时 ， 我 们 发 现 ， 并 没有 再 次 加 载 A 了 

(“Hello Import A” 只 输出 了 一 次 )。 这 样 的 现象 是 由 Python 对 package 中 的 module 的 动 
态 加 载 机 制 的 实现 决定 的 。 

在 加 载 package 下 的 module 时 ， 比 如 A.B.c，Python 内 部 将 这 个 module 的 表示 视 为 

一 个 树 状 的 结构 ， 即 B 位 于 节点 A 下 ， 而 c 位 于 节点 B 下 。Python 虚拟 机 在 进行 动态 加 
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载 时 ， 首 先 会 将 这 个 module 的 树 状 结构 分 解 ， 形 成 A，B，c) 这 和 样 的 节点 集合 ， 然 后 
从 左 到 右 依次 去 sys.modules 中 查找 每 一 个 符号 所 对 应 的 module 是 否 已 经 被 加 载 了 。 如果 
是 一 个 package 被 加 载 了 ， 比 如 说 被 加 载 了 ， 那 么 在 入 对 应 的 PyModulieObject 对 象 中 
维护 着 一 个 元 信息 ”path_， 表 示 这 个 package 的 路 径 。 如 果 当 前 = 被 加 载 到 sysmodules 
中 了 , 而 3 和 还 没有 , 那么 接 下 来 对 8 的 搜索 将 只 在 A._path_ 中 进行 , 而 不 在 python 
的 所 有 搜索 路 径 中 执行 了 。 


对 应 图 14-17 所 示 的 例子 ， 在 加 载 了 a.cank 之 后 ，E 已 经 被 加 载 到 了 sys.module 中 ， 
所 以 在 加 载 A.airplane 时 ，Python 虚拟 机 首先 在 sys.modules 中 搜索 符号 “A” 对 应 的 
PyModuleObject 对 象 ， 发 现 其 已 经 被 加 载 ， 则 不 会 再 次 进行 加 载 ， 所 以 我 们 没有 看 到 
“Hello Import &” 的 输出 ， 而 县 Python 虚拟 机 发 现 其 元 信息 path _ 为 CANPython2S\ 
Lib\idlelib\A， 那 么 对 airpiane 的 搜索 就 只 在 该 路 径 下 进行 。 如 果 我 们 将 airplane 移动 
到 A 的 父 目 录 ， 即 Ci\Python25\Libvidlelib 中 ， 我 们 看 看 如 图 14-18 所 示 的 结 昌 。 


>>> Limport Adtan 
Helilo Import A 
>>> impport A. airplane 












Traceback (most recaent call lagst): 
File "<pyshell#i>", line 1, in <maodule> 
import A.airplane 
ImportError: No module named asirplane 
>>> import airplane 
>>> airplane,. file 
"CC:\\Python25\\Lib\\idlelib\\airplane.py'’ 


图 14-18 加载 A.aireplane 失败 


非常 清晰 的 结果 ， 虽 然 对 Python 虚拟 机 而 言 ， 通 过 import airplane、airoiane 实 
际 上 是 可 以 访问 到 的 ， 这 表明 Python 虚拟 机 在 它 的 某 条 module 搜索 路 径 中 是 能 够 成 功 搜 
索 到 aizplane 的 ， 但 是 A.airpiane 限制 了 Python 虚拟 机 对 airplane 的 搜索 范围 ， 所 
以 动态 加 载 的 动作 失败 ， 导 致 异常 抛 出 。 








14.2.4 from 与 import 


在 Python 的 import 机 制 中 ,有 一 种 精确 控制 所 加 载 的 对 象 的 方法 ， 通 过 from 关键 字 
与 import 的 结合 ， 我 们 可 以 只 将 我 们 期 望 的 module， 甚 至 是 module 中 的 某 个 符号 ， 动 
态 加 载 到 内 存 中 。 这 种 机 制 使 得 Python 虚拟 机 在 当前 名 字 空 间 中 引入 的 符 导 可 以 尽 可 能 
地 少 ， 从 而 更 好 地 避免 名 字 空 间 遭 到 污染 ，。 


参考 如 图 14-14 所 示 的 package 布局 ， 假 如 我 们 希望 动态 加 载 tank modulie， 在 这 之 
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前 ， 我 们 讨论 了 一 种 方法 ， 即 : import A.tank。 从 图 14-15 所 示 的 结果 中 可 以 看 到 ， 在 
当前 的 1ocal 名 字 空 间 引 入 了 A， 而 我 们 希望 的 符号 “cank” 则 在 的 属性 中 ， 下 在 当前 
的 1ocal 名字 空间 中 。 


显然 ， 我 们 希望 更 方便 一 些 ， 即 能 够 直接 将 符号 “cank” 及 其 对 应 的 module 引入 到 
当前 的 1ecal 名 字 空 间 中 , 通过 from 和 import 的 联手 , 能 够 完美 地 完成 这 个 任务 :“ fram 
A import tank”。 图 14-19 展示 了 使 用 from 的 结果 。 










>>> sy7s.moduleas["tanky7] 





Traceback (most recent call last): 

File "<pyshell#4>", line i, in <module> 
sys.modules['tank? |] 

KeyError: “tank" 

>>> sys.modules[ "二 7 

<module "大 ” Erom 'C:\Python25\Lib\idlelib\A\ init .pyc"7> 

.modules['A.tank"] 

"A.tank' from CC:\Python25\Lib\idlelib\A\tank,.F 


图 14-19 直接 将 package 中 的 module 引入 当前 local 名 字 空 间 


果然 ，Python 虚拟 机 直接 将 符号 “kank” 引 入 到 了 当前 名 字 空 间 ， 但 是 当 进行 了 更 深 
一 层 的 探索 之 后 ， 我 们 发 现 ， 其 实 这 种 方式 的 本 质 是 与 import A.tank 一 样 的 ， 都 是 将 
package A 和 module A.tank 动态 加 载 到 了 Python 的 sys.modules 集合 中 ， 不 同 之 处 只 是 
在 于 当 import 的 动作 要 结束 时 ，Python 会 在 当前 的 local 名 字 空 间 中 引入 什么 符号 。 在 
import A.tank 中 ，Python 虚拟 机 引入 了 符号 “a”， 并 将 其 映射 到 module A; 而 在 from 
A import tank 中 ， Python 虚拟 机 则 引入 了 符号 “cank”， 并 将 其 映射 到 了 module A.tank。 


对 于 from 和 import 的 结合 ， 还 有 一 种 更 精妙 的 用 法 ， 即 仅仅 将 某 个 module 中 的 一 
些 对 象 暴露 到 当前 名 字 空 间 中 ， 在 这 之 前 的 所 有 例子 中 ， 我 们 要 么 不 加 载 ， 要 加 载 就 将 下 
个 module 都 加 载 并 引入 到 当前 名 字 室 介 中 。 而 from 与 impert 的 结合 则 能 精确 地 操纵 
module 中 的 某 个 部 分 ， 我 们 来 见识 一 下 ， 图 14-20 显示 了 动态 加 载 语句 : from A.tank 
import a 的 结果 ， 其 中 引 是 Aitank 中 的 一 个 整数 对 象 。 


?> 
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>>> trom A,.tank 4mpart a 
Hello Import A 

>>> dir() 

[7” Pultetans " " doo ",'" 


>>> import syy 

>>> sys.modules['A’] 

<module A" from ‘'C:\Python25\Lihb\idlelih\A\ init .pyce'> 
>>> sys.modules["tasnk"] 


Tracebhack {moast racent call last): 
File "<pyshelli#6>", line 1, in <module> 
sy35.modules[ "七 ank "] 
KeyError: “七 PK” 
>>> sys.modules[ "A.tasnk"] 
<module 'A.tank' from ‘'C:\Python25\Lib\idlelib\A\tank.py'> 
>>> sys.modules['A.tank.a"'] 


Traceback (most recent call Jagst): 
File "<pyshell#68>", line 1, in <module> 
ays. modules['A.tarnk.a"] 
KevyError: "A. tank.a" 


图 14-20 ”精确 控制 对 package 下 某 个 module 中 某 个 符号 的 引入 
从 from A.tank import a 的 输出 结果 我 们 其 实 已 经 可 以 看 到 一 些 线索 了 ， 看 上 去 ， 
package A 已 经 被 加 载 到 了 内 存 中 , 同样 我 们 可 以 推测 , 和 import A.tank、 fromA import 
tank 一 样 , A.tank 也 被 加 载 到 了 内 存 中 , 在 后 面 的 操作 结果 中 我 们 清晰 地 看 到 了 这 一 点 。 


我 们 还 看 到 ， 所 引入 的 符号 “a” 确实 上 只 是 A.tank module 中 的 一 个 对 象 ， 并 没有 
A.tank.a 这 样 的 module 存在 。 


最 后 ，Python 还 为 我 们 提供 了 一 种 机 制 ， 允 许 将 一 个 module 中 的 所 有 对 象 一 次 性 地 
引入 到 当前 名 字 空 间 中 ， 如 图 14-21 所 示 。 


>>> from A.tank import * 








DS 


图 14-21 引入 package 下 module 中 的 所 有 符号 


14.2.5 ”符号 重 命名 


在 前 面 的 讨论 中 ， 我 们 关注 的 焦点 实际 上 是 “Python 虚拟 机 将 哪个 module 动态 加 载 
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进 了 内 存 ”。 而 对 于 动态 加 载 机 制 ，Python 还 提供 了 一 种 符号 重 命名 的 机 制 ， 这 个 机 制 为 
动态 加 载 机 制 提供 了 更 大 的 灵活 性 ， 实 际 上 我 们 可 以 认为 这 种 重 命名 机 制 关注 的 焦点 是 
“Python 虚拟 机 将 module 以 怎样 的 形式 暴露 给 当前 名 字 空 间 ”。 
之 前 的 例子 都 是 将 module 自身 的 名 字典 露 到 了 当前 的 1ocai 名 字 空 间 ，Python 通过 
as 关键 字 可 以 控制 module 以 什么 名 字 被 引入 到 当前 的 1ocal 名 字 空间 中 ， 如 图 14-22 所 
>>> import A.tank as Tank 


> 六 > sys.modules["Tank"] 


Tracehack (most recent call last): 
File "<pyshelli#3>", line 1, in <module> 
sys.modules["'Taenk"] 
ReyError: ‘Tank" 
>>> sys.modules['A.tank"] 





n25 
图 14-22 更 换 引入 到 当前 local 名 字 空 间 中 的 module 名 


第 一 眼看 见 图 14-22, 我 们 就 心中 有 数 了 ,A 和 有 .tank 已 经 被 加 载 到 了 Python 的 module 
集合 中 ， 有 兴趣 的 朋友 可 以 自己 验证 。 令 人 感 兴趣 的 是 ， 在 当前 名 字 空 间 中 果然 出 现 了 通 
过 as 控制 的 符号 “rankm 而 且 Tank 实际 上 被 映射 到 了 modulea.tank, 这 一 点 与 图 14-15 
所 示 的 结果 有 很 大 不 同 ， 在 图 14-15 中 ， 我 们 看 到 了 符号 “a” 被 引入 到 了 当前 名 字 空 间 ， 
而 在 图 14-22 中 ， 符 号 “a” 已 经 消失 了 ， 取 而 代 之 的 是 我 们 指定 的 符号 “mank”， 如 此 一 
来 ， -虽然 在 sys.modules 中 还 有 A 存在 ， 但 是 访问 已 经 是 不 可 能 了 。 仅仅 加 了 一 个 关 
键 字 as， 就 取得 了 这 样 戏剧 性 的 改变 ， 原 因 究 竟 是 什么 呢 ? 呢 ， 列 位 看 官 ， 且 听 了 以 后 分 
解 @。 


14.2.6 ”符号 的 销毁 与 重 载 


为 了 使 用 一 个 module， 无 论 是 Python 的 standard module 还 是 用 户 自 己 的 module， 都 
需要 通过 import 将 其 动态 加 载 到 内 存 中 , 在 使 用 了 这 个 module 之 后 ， 可 能 我 们 需要 将 其 
删除 。 为 什么 需要 将 其 删除 呢 ? 通常 原因 很 多 ， 也 许 是 想 释 放 该 module 占用 的 内 存 ， 也 
许 是 想 避 免 名 字 室 间 过 于 庞大 , 以 保证 在 名 字 空 间 中 搜索 某 个 符号 的 动作 的 效率 不 会 成 为 
Python 运行 时 的 瓶颈 ， 如 此 等 等 。 通 常 ， 我 们 以 为 ael 能 够 很 好 地 完成 工作 ,毕竟 ， 从 一 
开始 接触 python 我 们 就 知道 ， 当 你 需要 删除 一 个 对 象 时 ，ael 吧 。 我 们 总 是 直觉 地 认为 这 
样 一 刀 下 去 ， 天 下 太平 ， 毕 竟 “dszi” 这 个 名 字 总 不 能 是 白 叫 的 吧 ， 
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但 是 且慢, 这 样 的 动作 真 的 能 保证 module 被 销毁 吗 ? 或 者 更 准确 地 说 ,符号 的 销毁 ” 
和 “符号 关联 的 对 象 的 销毁 ”是 一 个 概念 吗 ? 我 们 已 经 看 到 Python 向 我 们 隐藏 了 太 多 的 
动作 ，Python 采取 了 太 多 的 缓存 策略 ， 当 然 ， 对 于 Python 的 使 用 者 来 说 ， 隐 藏 这 些 复 杂 
性 是 好 事 ， 但 是 当 我 们 希望 彻底 了 解 Python 的 行为 时 ， 就 必须 将 这 些 隐 藏 的 东西 挖 出 来 。 
图 14-23 展示 了 我 们 的 挖掘 结果 。 


>>> 4mnort A.tani 
Hallo Import A 


>>> sys.modules[ "点 .七 anK 7 ] 


<module "大 -tank from ‘CcC:\Python25\Lib\idlelib\A\tank.pyec'> 
>>> id(sys.modules['A.tank"']) 


import A.tank as Tank 
> QarC) 
” Ve Bvtins, 





图 14-23 考察 对 符号 的 del 操作 


在 Gel 之 后 , 符号 “Tank” 确 实 从 当前 名 字 空 间 中 消失 了 ,但 是 我 们 随后 看 到 ， 消 失 
的 仅仅 是 “mank” 这 个 符号 , 而 其 背后 隐约 闪现 的 module A.tank 依然 在 Python 的 module 
缓 在 中， 凋 然 不 动 。 然 而 ， 尽 管 它 还 存在 于 Python 系统 中 ， 但 是 我 们 的 程序 再 也 无 法 访 
问 到 这 个 module， 仿 佛 天 地 间 再 也 不 存在 x&.tank 这 个 module 一 样 。“ 存 在 即 是 被 感知 ”， 
这 个 英国 大 主教 贝克 莱 所 提出 的 命题 ， 这 个 经 常 被 唯物 主义 者 嘲弄 的 命题 ， 对 于 Python 
中 的 A.tank 而 言 ， 却 是 不 折 不 扣 的 真理 。 我 们 的 程序 已 经 没有 办 法 感知 到 A.tank 的 存 
和 在，Python 系统 成 功 地 向 我 们 隐藏 了 这 一 切 ， 所 以 ， 我 们 的 程序 认为 : A.tank 已 经 不 存 
在 了 。 


为 什么 Python 要 采用 这 种 看 上 去 类 似 module pool 的 缓存 机 制 呢 , 一 个 重要 的 原因 是 
组 成 一 个 完整 系统 的 多 个 py 文件 可 能 都 会 对 某 个 module 进行 import 动作 ， 和 希望 使 用 这 
个 module 所 提供 的 功能 。 到 了 这 里 , 我 们 看 到 ， 从 Python 的 角度 看 ，import 其 实 并 不 完 
全 等 同 于 我 们 所 熟知 的 “动态 加 载 ” 这 个 概念 ， 它 的 真实 含义 是 希望 某 个 module 能 够 被 
感知 ， 即 是 将 这 个 module 以 某 个 符号 的 形式 引入 到 某 个 名 字 空 间 。 如 果 import 等 于 动 
态 加 载 , 那么 Python 将 对 同一 个 module 执行 多 次 动态 加 载 ,并 且 在 内 存 中 保存 一 个 module 
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的 多 个 映像 ， 这 显然 是 思春 的 。 


所 以 Python 引入 了 全 局 的 module 集合 sys .modules, 这 个 集合 作为 module pool， 
保存 了 module 的 唯一 映像 ， 当 某 个 .py 文件 通过 import 声明 希望 感知 到 某 个 module 时 ， 
Python 将 在 这 个 pool 中 查找 , 如 果 该 module 已 经 存在 于 pool 中 , 则 引入 一 个 符号 到 该 ,py 
文件 的 名 字 空 间 中 , 并 将 其 关联 到 该 module, 使 该 module 透 过 这 个 符号 能 够 被 .py 文件 感 
知 到 ; 而 如 果 该 module 不 在 pool 中 ， 这 时 Python 才 执 行动 态 加 载 的 动作 。 

难道 这 意味 着 一 个 module 如 果 被 加 载 之 后 就 再 也 不 能 被 改变 ?假如 在 加 载 了 module 
A 之 后 ,我 们 更 新 了 A 中 某 个 功能 的 实现 ， 以 提供 更 好 的 效率 , 我 们 希望 我 们 的 应 用 程序 
能 使 用 新 的 A module 中 效率 更 高 的 某 个 功能 的 实现 ， 难 道 Python 就 束手无策 了 ? Python 
的 动态 特性 显然 不 会 技 止 于 此 ， 它 提供 了 一 种 重新 加 载 的 机 制 ， 这 种 机 制 是 通过 builtin 
module 中 的 reload 操作 实现 的 。 图 14-24 显示 了 重 载 的 情形 。 





>>> dir(sys.modules["robert"]) 


[” builtins *; * doe * ' file ", ' mame 

>>> id(robert) 

13936432 

>>> 

>>> 关 [1] : 添加 代码 'b = 2' 到 robart.py 中 

>>> reiload (robert) 

<modiils robert’ from ‘CcC;\PythonZ25\Lihbh\idlelib\robert.py'> 
>>> dir(sys.modules["robert"]) 

Ea Bulltina im WC doos SOT Ir 0 

>>> idtrobert) 


>>> id(robert) 
3836432 

>> robert,.b 
2 





图 14-24 ”Python 中 的 module 的 重新 加 载 机 制 
在 图 14-24 的 [所 处 ， 我 们 在 robertpy 中 添加 了 “b = 2” 这 个 表达 式 ， 调 用 teload 
操作 进行 重新 加 载 后 ， 我 们 发 现 ， 在 sys .moduies 中 的 robert module 的 确 更 新 了 。 但 是 
从 ia() 操 作 的 结果 可 以 看 到 ，Python 虚拟 机 并 没有 创建 新 的 modile 对 象 。 所 以 我 们 可 以 
猜测 ， 在 reload 背后 ，Python 只 是 在 原 有 的 robert module 中 添加 了 符号 “b” 及 其 对 
应 的 值 。 ~ 


接着 ， 一 个 奇怪 的 现象 出 现在 了 图 14-24 的 [2] 之 后 。 在 四处， 我 们 从 robertpy 中 将 
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“sb = 2” 删除 ， 同 时 添加 了 “c = 3” 按照 我 们 的 推测 ， 这 时 robert.py 中 的 属性 应 该 是 
(a， c) 才 对 ， 但 是 ， 白 纸 煲 字 ， 那个 本 应 该 被 删除 的 b 还 是 出 现在 了 robert module 
的 属性 列表 中 ， 更 奇怪 的 是 ，robert,b 的 值 还 是 以 前 的 2。 这 似乎 预示 着 Python 虚拟 机 在 
调用 reloaa() 操 作 更 新 module 时 ， 只 是 将 新 的 符号 加 入 到 module 中 ， 而 不 管 module 中 
的 符号 是 否 已 经 在 源 文件 中 被 删除 了 。 


这 个 猜测 到 底 对 不 对 呢 ? 别 急 ， 这 个 谜底 在 本 章 的 最 后 将 被 揭 开 现在， 我 们 看 了 太 
多 的 黑 盒 探测 ， 已 经 迫不及待 想 要 把 这 个 黑 盒 摄 开 ， 看 一 看 里 面 到 底 是 如 何 运 作 的 。OK， 
follow me， 我 们 马上 进入 对 import 机 制 的 源码 剖析 。 


14.3 import 机 制 的 实现 


从 前 面 的 黑 盒 探测 我 们 已 经 对 import 机 制 有 了 一 个 非常 清晰 的 认识 , Python 的 import 
机 制 基本 上 可 以 切 分 成 3 个 不 同 的 功能 ; 
> _ Python 运行 时 的 全 局 module pool 的 维护 和 搜索 ; 
> ”解析 与 搜索 module 路 径 的 树 状 结构 ; 
> ”对 不 同文 件 格式 的 module 的 动态 加 载 机 制 。 


完成 了 这 3 个 功能 ， 实 际 上 我 们 自己 也 能 实现 一 个 与 Python 兼容 的 动态 加 载 机 制 了 。 
在 这 一 节 中 ， 我 们 将 深入 Python 的 源码 ， 仔 细 考 察 Python 是 如 何 实现 这 3 个 功能 ， 将 对 
import 机 制 的 认识 从 整体 框架 的 基础 上 更 深 一 层 ， 到 达 代 码 的 层次 。 


从 前 面 的 分 析 我 们 看 到 , 尽管 Python 中 import 的 表现 形式 千变万化 ,但 是 归根 结 底 ， 
都 可 以 归结 为 ，import x.y.z 的 形式 。 因 为 对 于 import sys 中 的 sys 可 是 视 为 x.y.z 
的 一 种 特殊 形式 ; 而 诸如 from、as 与 import 的 结合 ， 实际 上 同样 会 进行 import x.y.z 
的 动作 ， 只 是 最 后 在 当前 名 字 空 间 中 引入 符号 时 各 有 不 同 。 所 以 我 们 对 代码 的 分 析 将 以 
import x.y.z 这 样 的 形式 作为 默认 的 import 动作 。 


在 本 章 第 1 节 中 我 们 看 到 ，Python 的 import 机 制 的 起 点 是 builtin moaule 中 的 
_ import _ 操作， 也 就 是 builtin_import_ 函数 ， 我 们 的 征途 就 从 这 里 开始 。 


a “本 
人 
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这 里 的 PyArg_ParseTupleAndKeywords 函数 在 Python 自身 的 实现 中 是 一 个 被 广泛 
使 用 的 函数 ， 甚 原型 如 下 ; 








这 个 函数 的 目的 是 将 args 和 kwas 中 所 包含 的 所 有 对 象 按 format 中 指定 的 格式 解析 
成 各 种 目标 对 象 。 目 标 对 象 可 以 是 Python 中 的 对 象 ， 比 如 pyDictobject 对 象 ， 
PyStringobject 对 象 ， 也 可 能 是 C 的 原生 类 型 ， 比 如 int，char* 等 。 


我 们 知道 ,这 里 的 这 个 args 实际 上 是 一 个 PyTupleobject 对 象 , 包含 了 puilitin 
import_ 函数 运行 所 需要 的 所 有 参数 和 信息 ， 它 是 Python 虚拟 机 在 执行 fpPORT_NAME 指 
令 时 打包 而 产生 的 ， 到 了 这 里 ，Python 虚拟 机 进行 了 一 个 逆 动 作 ， 即 将 打包 后 得 到 的 这 个 
PyTupleobject 拆 开 , 重新 获得 当初 的 参数 .Python 在 自身 的 实现 中 大 量 运 用 了 这 样 的 打 
包 、 拆 包 的 策略 ， 使 得 可 变数 量 的 对 象 能 够 很 容易 地 在 函数 之 间 传 递 。 

在 解析 参数 的 过 程 中 ,指定 解析 格式 的 format 中 可 用 的 格式 字符 非常 多 , 想 要 详细 了 
解 其 所 支持 的 所 有 格式 字符 可 以 参考 Python 自身 所 携带 的 文档 。 这 里 简要 介绍 一 下 
builcin__imporc 用 到 的 格式 字符 。 

其 中 ，s 代表 目标 对 象 是 一 个 char*， 通 常用 来 将 tuple 中 的 Eystringgbject 对 象 
解析 成 char*; i 则 用 来 将 tuple 中 的 pyIntobject 对 象 解析 为 int 类 型 的 值 ， 而 o 则 
代表 解析 的 目标 对 象 依然 是 一 个 Python 中 的 合法 对 象 ,通常 ， 这 表示 :Byazg_ parsemuipla- 
AandKeywords 不 进行 任何 的 解析 和 转换 ， 因 为 在 pyTupleobject 对 象 中 存放 的 肯定 是 一 
个 Python 的 合法 对 象 。 

至 于 “1” 和 “: ”， 则 非 格式 字符 ， 而 是 指示 字符 ，“1” 指 示 其 后 所 带 的 格式 字符 是 
可 选 的 。 也 就 是 说 ， 如 果 args 中 只 有 一 个 对 象 ， 那 么 builtin _import 对 
PyaArg_ParseTupleandKkeywords 的 调用 也 不 会 失败 。 其 中 ， args 中 的 那个 对 象 会 按照 “s” 
的 指示 被 解析 为 char*， 而 剩 下 的 giobal、local、fromlist 则 将 会 按照 “oy* 的 指示 被 
初始 化 为 py_None，level 则 保持 不 变 。 最 后 的 那个 “， ”指示 格式 字符 到 此 就 结束 了 ， 
其 后 所 带 字符 串 用 于 在 解析 过 程 中 出 错时 输出 错误 信息 时 使 用 ， 可 以 看 到 ， 输 出 了 “; ” 
后 面 的 那个 “import _“”， 就 能 很 好 地 定位 错误 的 出 现 位 置 了 。 
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在 完成 了 对 参数 的 拆 包 动作 之 后 ，Python 进入 了 PyIimport_ImportModulebevel: 








Eg 





,dl 
不 同 的 线程 对 间 一 个 module 的 import 动作 , 如 果 没 有 这 个 同步 , 则 会 产生 一 些 异常 现象 。 
在 进行 了 import 动作 之 后 ; 还 会 通过 unlock_import 解 开锁 。 我 们 关注 的 焦点 在 impart 
动作 ， 所 以 不 去 深究 锁 机 制 ， 直 接 进入 import_module_level ( 见 代 码 清单 14-3)。 

代码 清单 14-3 


下 ， 1 
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我 们 回忆 一 下 本 章 第 1 节 中 列 出 的 IMPORT_NAME 指令 的 实现 代码 。 





最 终 获 得 Xx 就 是 这 里 import module_level 的 返回 值 ， 可 以 看 到 ， 返回 值 依赖 于 
fromlist 这 个 参数 ， 那 么 这 个 参数 代表 的 是 什么 东西 呢 ? 

一 般 情 况 下 , 这 个 Eromlist 都 是 Py_None, 但 是 当 Python 虚拟 机 进行 “ Eroma import 
b,c” 这样 的 动作 时 , fromilist 就 不 再 无 效 了 , 而 是 成 为 一 个 诸如 (b,c) 这 样 的 pyTuple- 
object 对 象 。 这 个 Eromlist 将 如 何 影响 import 的 行为 ， 在 以 后 的 章节 中 将 详细 前 析 。 


14.3.1 解析 module/package 树 状 结构 


在 第 2 节 的 分 析 中 我 们 已 经 发 现 ，Python 对 x.y.z 的 import 动作 实际 上 是 沿 着 树 状 
结构 一 层 一 层 地 展开 的 ， 也 就 是 说 ， 可 以 看 作 是 对 树 状 结构 的 遍历 操作 。 更 形象 一 些 ， 我 
们 可 以 将 x.y.z 看 作 是 对 一 个 二 元 树 的 遍历 的 轨迹 , 其 中 在 遍历 的 过 程 中 , 我 们 对 每 个 节 
点 都 只 访问 其 右 子 树 。 对 于 这 样 的 一 个 从 根 到 叶 节 点 的 遍历 操作 ， 2 
em 如 让 间 的 伤 代 相 汪 示 : 





怎么 样 ? 是 不 是 觉得 跟 import_module_level 非常 地 神似 ? 没 错 ,import_module_ 
level 的 主要 动作 正 是 实现 了 对 x.y.z 这 样 的 树 状 结构 的 遍历 。 在 后 面 的 描述 中 我 们 会 越 
来 越 清晰 地 看 到 这 一 点 。 首 先 我 们 来 看 看 import_module_level 中 get_parent 完成 的 
动作 〔 见 代码 清单 14-4)。 


代码 清单 14-4 
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其 中 的 函数 level 一 般 情况 下 都 为 -1， 这 时 ，level 不 对 get_parent 产生 影响 ， 所 


以 我 们 这 里 不 考虑 level 这 个 参数 。 和 
函数 get_parent 的 功能 是 返回 一 个 package， 这 个 package 是 当前 的 import 动作 执 
es 举 个 例子 吧 ， 假设 我 们 在 如 图 14-25 所 示 的 目录 结构 中 考察 import 人 








图 14-25 package A 的 目录 布局 


现在 有 一 个 package A， 在 和 中， 有 名 为 modi 和 moa2 的 两 个 module。 当 Python 虐 
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拟 机 执行 “import A” 时 ， 会 动态 加 载 目录 A 下 的 _init_,py。 现在 ， 在 _init_py 中 ， 
Python 虚拟 机 又 执行 了 “importmoal” 那么 Python 虚拟 机 认为 ， 对 于 moaql 这 个 module 
的 import 动作 是 发 生 在 package B 的 环境 中 的 。 这 个 所 谓 的 环境 ,实际 圭 最 重要 的 一 点 
就 是 package A 的 元 信息 ;__path__， 即 上 自 录 A 的 路 径 信息 。 因 为 一 般 来 说 ,在 A/_init_py 
中 import 一 个 module (我 们 这 里 是 mod1)， 那 么 合理 的 行为 是 该 module 应 该 也 在 目录 
中 ， 或 Python 的 标准 搜索 路 径 中 ， 这 样 实际 上 也 才能 将 package 作为 module 的 管理 机 制 。 


假如 在 package A 中 的 import 动 作 能 影响 到 package 5 中 的 mod1， 那么 如 梁 package 
A 和 B 中 也 同时 有 modl， 那 么 Python 究竟 该 选择 哪 一 个 作为 import 的 对 象 昵 ? 显然 ， 
package 是 import 的 边界 ，import 动作 不 能 跨越 package 进行 ， 所 以 在 package 中 进行 
import 动作 时 ， 我 们 需要 package 的 _path_ 元 信息 ， 以 限制 对 module 的 搜索 范围 。 


Python 虚拟 机 在 执行 “import A” 时 ， 会 为 package A 创建 一 个 module 对 象 ， 同 时 
会 在 该 module 维护 的 dict 中 添加 两 个 表示 元 信息 的 属性 : __name 和 path 。 而 
Python 虚拟 机 从 A/_init_,py 中 执行 “import moadl” 时 ， 也 会 为 moal 创建 一 个 module 
对 象 ， 同 时 也 会 设置 _name_ 属 性， 但 是 这 时 就 不 设置 _path 属性 了 。 


统一 一 下 ， 我 们 说 ， 当 Python 虚拟 机 im5ort 一 个 package 或 module 时 ， 都 会 创建 

一 个 module 对 象 ， 并 且 设 置 其 _nams_ 和 _ path__， 只 不 过 module 对 应 的 _path_ 为 
空 田 了 。 对 于 我 们 的 例子 ，A 对 应 的 module 对 象 中 的 属性 集合 为 {“"_ name_”; “A”， 

* path *» : “F:\PythonBook\Sro\importMA”; 而 modal 对 应 的 module 对 象 中 的 属性 集合 


name mp *A,modl” Ts 


当 在 package & 的 环境 (包括 _init_.py、modl1.py 和 mod2.py， 但 仅 考虑 _init__.py 
和 modl.py 就 足够 了 ) 中 执行 Python 代码 时 ， 这 了 时 的 global 名 字 空 间 (globals) 就 将 是 
_init _.py 或 mod1.py 对 应 的 module 对 象 所 维护 的 dict。 代 码 清 单 14-4 的 [中 处 从 globals 
中 获得 _name。_ 属性， 即 A 或 A.mod1。 随后， 再 根据 globals 名 字 空 间 中 的 _path_ 属性 
区 分 自前 处 理 的 import 动作 是 在 _init_.py 中 发 生 的 还 是 在 modl.py 中 发 生 的 。 代码 清 
单 14-4 的 [2] 处 处 理 import 动作 发 生 在 _init_.py 中 发 生 的 情况 : 而 代码 清单 14-4 的 [3] 
处 处 理 import 动作 在 modl.py 中 发 生 的 情况 。 不 管 是 代码 清单 14-4 的 四 还 是 代码 清单 
14-4 的 [3]， 其 目的 都 是 获得 package A 的 名 字 “A”， 并 将 其 拷贝 到 buf 中 。 

最 后 在 代码 清单 14-4 的 [4] 处 , 根据 buf 在 Python 的 全 局 module 集合 中 查找 名 为 “aA” 
的 module 对 象 ， 将 搜索 得 到 的 对 象 返回 。 注 意 [ 咯 处 的 pyImport_SetModuleDict 即 是 获 
得 全 局 module 集合 一 一 sys .modules 的 操作 。 

正 是 因为 代码 清单 14-4 的 [3] 将 module 的 名 字 “a.modl "退化 为 了 package 的 和 名字“a”， 
所 以 ， 在 modl.py 中 执行 的 “import mod2” 才 能 成 功 ， 因 为 具有 get_parent 返回 了 “A” 
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对 应 的 module 对 象 , 接 下 来 Python 虚拟 机 才 知 道 后 续 的 import 动作 是 发 生 在 backage A 
的 环境 下 ， 寻 找 的 module 的 路 径 应 该 基于 package A 的 路 径 ， 只 有 基于 package a 的 路 
径 才能 找到 moa2， 因 为 它 的 路 径 为 : “Amod2.py”。 


到 了 现在 ， 我 们 可 以 进行 这 样 的 一 种 抽象 ; Python 中 的 import 动作 都 是 发 生 在 某 一 
个 package 的 环境 下 。 那么 如 果 import 动作 并 不 是 真 的 发 生 在 一 个 package 中 时 ,我们 怎 
么 来 完善 我 们 的 抽象 呢 ? 就 像 我 们 在 交互 式 环境 下 进行 import 动作 时 ， 我 们 并 没有 处 于 
任何 一 个 package 中 。 

我 们 假设 最 初 Python 执行 时 ， 就 是 在 一 个 系统 默认 的 package，_ main _ ”package， 
中 进行 的 ， 所 以 这 时 的 import 动作 是 发 生 在 _main package 中 的 。 所 以 ， 对 应 于 这 个 
一 main _ package，get_parent 也 需要 返回 一 个 与 其 对 应 的 module 对 银 。 然 而 这 个 所 谓 
的 _main__ package 只 是 我 们 为 了 完善 理论 而 创建 的 一 个 概念 上 的 东西 ， 并 非 一 个 真实 的 
package， 所 以 我 们 强制 与 它 对 应 的 module 对 象 是 py_None， 那 么 我 们 所 需要 的 pakcage 
的 _path_ 元 信息 呢 ， 显 然 Py_None 中 没有 这 个 信息 ， 那 么 ， 就 让 Python 默认 的 搜索 路 
径 成 为 这 个 _main__ package 的 __path__ 元 信息 吧 。 

到 此 ， 我 们 将 所 有 的 import 动作 都 归 一 到 同一 个 抽象 原则 下 ; Python 中 的 import 
动作 都 是 发 生 在 某 一 个 package 的 环境 中 。 

注意 我 们 说 import 动作 是 发 生 在 一 个 package 的 环境 中 ,而 并 非 一 个 module 的 环境 
下 ， 在 这 里 ， 区 分 package 和 module 十 分 重要 。 假 如 Python 在 _main _ package 下 进行 
import mod1 的 动作 ,而 在 modl,py 中 , 又 进行 了 import mod2 的 动作 ,那么 这 两 个 import 
动作 都 是 发 生 在 _main__ package 环境 下 的 ， 尽 管 import mod2 这 个 动作 是 由 meal 触发 
的 ， 这 个 约束 是 由 我 们 在 前 面 所 剖析 的 代码 清单 14-4 的 [3] 处 所 完成 的 动作 保证 的 。 

这 样 的 区 别 看 上 去 好 像 有 些 人 工 驹 凿 的 痕迹 ， 实 际 上 ， 它 源 自 Python 中 一 个 本 质 的 
抽象 : package 是 由 module 聚合 而 成 。 更 清楚 的 表述 是 : module 属于 一 个 package。 我 们 
不 能 说 ，modulel 属于 module2。 我 们 前 面 已 经 看 到 ，module 的 路 径 实 际 上 是 一 种 树 状 结 
构 ， 从 图 14-11 中 可 以 看 到 ， 在 这 个 树 状 结构 中 ，module 的 父 节点 只 能 是 package， 而 不 
可 能 是 男 一 个 module。 

所 以 ， 对 于 import modGl 和 import moG2，get_parent 都 将 返回 _main__ package 
对 应 的 module 对 象 : Py_None。 

在 获得 了 import 动作 执行 的 package 环境 之 后 ， Python 虚拟 机 立即 通过 1oad_next 
开始 了 在 package 环境 中 对 module 的 import 动作 见 代码 清单 14-5。 


代码 清单 14-5 
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在 第 2 节 的 分 析 中 我 们 已 经 看 到 ， 对 于 import x.y.z 这 样 的 形式 ，Python 采用 了 一 
种 逐次 加 载 的 方法 ， 也 就 是 说 ，Python 将 首先 加 载 package x， 然 后 加 载 backage y， 最 
后 加 载 module z。 从 图 14-11 就 可 以 看 出 ， 在 x.y.z 这 样 的 树 状 结构 中 ， 只 有 最 后 一 个 
节点 才能 是 module。 

这 样 的 算法 定义 出 一 种 序 结构 ， 假 如 在 这 个 序 结构 上 定义 一 个 名 为 next 的 函数 ， 那 
么 以 x 为 参数 ，next 函数 的 结果 是 y， 以 y 为 参数 ，next 函数 的 结果 是 z， 而 x 同样 也 
是 next 函数 的 结果 。 为 了 从 next 函数 得 到 x， 我 们 需要 有 一 个 虚拟 的 起 始 节 点 ， 这 样 ， 
module 的 位 置 结构 最 终 被 抽象 成 了 _main__,x.y.z 的 形势 .虽然 我 们 说 _main_ 是 一 个 
虚拟 的 起 始 节点 ， 但 在 Python 中 ， 这 个 名 为 、main_ 的 package 实际 上 是 有 意义 的 ， 它 
的 _path_ 元 信息 就 是 Python 默认 的 搜索 路 径 。 

在 Python 的 import 机 制 中 ，1locaa_next 正 是 next 函数 的 实现 ， 在 load_next 函数 
中 ，Python 首先 将 获得 下 一 个 需要 动态 加 载 的 package 或 module， 这 一 部 分 在 代码 清单 
14-5 的 [处 完成 ， 由 于 这 部 分 代码 比较 繁 珊 ， 所 以 这 里 没有 详细 列 出 。 

在 获得 了 需要 加 载 的 package 或 module 的 名 字 一 一 设 为 m 一 一 之 后 , loaa_next 调用 
import_submodule 对 m 进 行 import 动作 , 注意 这 里 的 import 并 不 一 定 就 意味 着 动态 加 
载 ， 前 面 我 们 说 了 ，Python 还 维护 着 一 个 module pool 呢 。 

在 1oad_next 函数 的 参数 中 ,p_name 和 buf 都 是 由 import_module_level 中 传 入 ， 
*p_name 中 存储 当前 还 剩 下 的 module 的 数 状 结构 , 而 buf 中 将 存储 已 经 完成 import 动作 
的 树 状 结构 ， 比 如 对 于 import xml .sax.xmlreader， 在 整个 逐次 import 的 过 程 中 ， 将 
会 按照 import 的 进行 次 序 出 现 如 下 4 种 (*p_name, buf) 组 合 : (“xml. sax. xmlreader”™, 

“™), ("sax.xmlreader”, “mxl” );, (“xmlreader”, “xml .sax” ), (NULL, “xmil .sax. 
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xmlreader” )。 当 *p_name 中 的 字符 串 变 为 NSEE 时 ， 也 就 意味 着 import 已 经 完成 了 ， 
这 时 buf 中 将 存储 整个 module 路 径 的 树 形 结构 。 在 import_module_level 中 , 整个 逐次 
import 的 过 程 被 清晰 地 展示 了 出 来 。 


} se 






每 一 次 调用 调用 loaa_next 之 后 ， 完 成 一 个 部 分 (package 或 module) 的 import， 
并 且 变 换 {*p_name，buf) 组 合 ， 当 整个 import 动作 完成 之 后 ，*p_name， 也 就 是 
import_module_level 中 的 name， 将 成 为 NULE， 这 时 import_moGule_level 将 结束 这 
个 逐次 import 的 动作 。 


14.3.2 ”加载 module/pakcage 


在 load_next 中 调用 的 import_submodule 完成 了 搜索 module 并 加 载 module 的 工 









作 ， 其 原形 如 下 ;: 
static PyoObject* import_ submodule(PyObje 
WR > < y 





其 中 ， 第 一 个 参数 mod 就 是 我 们 在 讨论 函数 get_parent 时 提 到 的 那个 import 动作 
的 执行 环境 , import_submodule 需要 其 中 的 _path_ 元 信息 来 完成 搜索 module 的 任务 ， 
第 二 个 参数 和 第 三 个 参数 可 能 有 些 使 人 迷惑 。 以 impcrE xml .sax.xmlreader 为 例 ， 在 
最 终 import xmlreader 时 ，subname 就 是 xmlreader， 人 而 ftullname 为 xml .sax. 
xmlreader。 这 涉及 import_submoduie 的 两 个 任务 : 搜索 module 和 维护 全 局 module 集 
合 sys.modules。 当 import_submodule 执行 时 ，Python 虚拟 机 在 mod 的 _path_ 元 信 
息 提 供 的 路 径 中 搜索 module， 需 要 搜索 的 是 名 为 subname 的 文件 ; 而 当 import_ 
submodule 完成 了 动态 加 载 ， 需 要 将 新 创建 的 module 加 入 到 Python 的 module pool 中 时 ， 
还 记得 上 面 第 2 节 中 的 分 析 吗 ? 并 不 存在 名 为 “xmireader” 的 module,， 在 module pool 中 ， 
只 有 名 为 “xml .sax.xmlreader” 的 module， 这 就 是 fulliname 的 作用 。 
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在 10ad_next 中 ， 我 们 注意 到 一 个 奇怪 的 现象 ， 在 ioad_next 中 ， 第 三 个 参数 是 一 
个 奇怪 的 altmoda， 看 上 去 它 和 第 一 个 参数 的 作用 是 一 样 的 :作为 import 执行 的 package 
环境 .在 load_next 的 代码 清单 14-5 的 [2] 处 我 们 看 到 , 当 import_submodule 在 环境 mod 
中 失败 后 ， 会 转 而 尝试 在 环境 altmod 中 进行 impor_submodule 的 动作 。 这 个 altmoa 究 
竟 会 是 什么 呢 ? 

还 是 考虑 如 图 14-25 所 示 的 例子 ， 在 package A 中 有 module modi， 在 mod1.py 中 
又 进行 了 import sys 的 动作 。 根 据 前 面 的 结论 我 们 知道 ， 当 import sys 发 生 时 ， 它 是 
在 package A 中 进行 的 ， 但 是 package A 的 环境 中 没有 sys module ( 即 ， 该 目录 下 没有 
一 个 名 为 sys.py ) 的 文件 ， sys module 是 在 Python 的 默认 搜索 路 径 之 下 的 ， 倘若 在 modl,py 
中 竟然 不 能 进行 import sys 这 样 的 动作 ， 那 Python 也 只 好 找 块 豆 腐 一 头 撞 死 了 。Python 提 
供 了 altmod， 正 是 为 了 解决 这 个 问题 ， 我 们 前 面 说 了 __main__ package 对 应 的 module 为 
py_None, 而 其 _path_ 元 信息 就 是 Python 的 默认 搜索 路 径 , 所 以 在 这 种 情况 下 , altmoda 
为 py_None, 这 使 得 Python 能 够 在 默认 搜索 路 径 下 寻找 在 当前 package 中 不 存在 的 module。 
实际 上 ， 终 Python 的 一 生 ，altmoa 只 能 有 两 种 选择 : 1. aitmod == mod; 2. altmod == 
py_None， 二 者 必 居 其 一 。 看 看 前 面 的 import_moaule_level， 一 切 就 非常 清晰 了 ， 


好 了 ， 了 解 了 import_submoauile 的 工作 原理 之 后 ， 现 在 我 们 可 以 进入 import_ 
submodule 中 ， 在 这 里 ， 我 们 将 发 现 之 前 关于 import 动作 的 文字 描述 将 清晰 地 以 代码 的 
形式 展现 出 来 ， 这 里 ， 就 是 import 的 核心 所 在 〔 见 代码 清单 14-6)。 
代码 清单 14-6 





Python 源码 前 六 一 一 深 居 训 黄 动态 语言 巷 人心 检 天 








372 宣 第 14 章 Python 模块 的 动态 加 载 机 制 





14.3.2.1 搜索 module 


代码 清单 14-6 的 [1] 处 首先 在 Python 的 module pool 中 查找 是 否 已 经 加 载 了 待 加 载 的 
module， 如 果 是 ， 则 直接 将 其 返回 ， 注 意 ， 正 如 前 面 所 言 ， 这 里 使 用 了 fuiliname。 

在 代码 清单 14-6 的 [2] 处 ， 我 们 终于 看 见 了 import 执行 的 package 环境 对 import 的 
为 subname 的 module 的 路 径 信息 。 同 样 ， 如 前 面 的 剖析 ， 如 果 import 的 执行 环境 是 
__main _ package， 则 Path 将 被 设置 为 NULL， 在 find_module 中 ， 传 入 的 NULE 的 path 
将 使 Python 虚拟 机 最 终 在 默认 的 搜索 路 径 下 搜索 。 

Python 虚拟 机 在 随后 调用 ftind_moaule 的 行为 中 ， 会 在 path 指定 的 路 径 下 搜索 名 为 
subname 的 module。 如 果 在 path 指定 的 路 径 下 确实 存在 名 为 subname 的 module， 则 有 三 
项 信息 将 被 返回 : 
> Fp 指向 了 被 打开 的 实现 module 的 文件 ; 
> ”puf 中 存放 着 module 对 应 的 文件 在 操作 系统 上 的 完整 的 绝对 路 径 名 ; 
> ”fdp 存储 着 关于 这 个 module 的 元 信息 。 

fina_module 是 一 个 相当 复杂 而 繁琐 的 函数 ， 在 这 里 ， 我 们 不 青 深 入 进去 ， 有 兴趣 的 
读者 可 以 跟踪 进入 。 需要 说 明 的 是 , 在 find_module 中 , Python 将 寻找 一 切 可 以 作为 module 
的 文件 , 也 就 是 说 , 对 于 subname, Python 将 寻找 subname.py、 subname.pyc、subname.pyd、 
subname.pyo 和 subname.dll(Python2.5 已 不 支持 dll 后 缀 名 的 文件 )。 只 要 有 一 个 文件 存在 ， 
那么 fina_ module 就 将 成 功 返 回 ， 

现在 问题 来 了 , Python 如 何 知道 发 现 的 module 究竟 是 怎样 的 形式 昵 ? 是 py 文件 还 是 
C 写 的 dl 文件 呢 ? 答案 正 是 在 find_moaule 的 返回 值 中 ,我 们 来 看 一 看 第 三 个 返回 信息 
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fap 的 类 型 filedescr。 






在 filedescr 中 ， 保 存 着 关于 module 的 3 个 元 信息 : 后 缀 名 ， 模 式 及 类 型 。Python 
中 维护 着 一 个 名 为 _Byimport_Piletab 的 全 局 变量 ， 它 保存 着 所 有 合法 的 module 的 元 信 
息 。 这 个 全 局 变量 是 在 Python 初始 化 时 调用 _Pyrmport_rnit 构建 的 。 在 _PyTmport_ 
Init 中 ,Python 基于 _pyImport_DynLoadFiletab 和 _PyTmport_StandardFiletab 两 个 
信息 来 源 构建 _PyTmport_Filerab， 我 们 看 看 在 Win32 平台 下 ， 这 两 个 信息 来 源 是 什么 。 








在 Python 2.5 之 前 ，Python 是 支持 dl 形式 的 扩展 的 ， 但 是 在 Python 2.5 中 ，sqlite3 
被 加 入 到 了 标准 库 中 ， 同 时 ， 也 引入 了 一 些 名 字 冲 突 ， 所 以 在 Python 2.5 中 ，-_ByImport- 
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DynLoadFiletab 内 对 的 支持 被 注释 掉 了 ,具体 原因 可 参考 Python 源码 中 dynload_win.c 
的 注释 。 

函数 find_module 返回 的 Edp 正 是 其 中 的 一 个 记录 ， 同 样 ， 也 正 是 这 个 Eap 所 携带 的 
module 的 元 信息 指导 了 随后 的 1oad_moaule 究竟 应 该 采用 怎样 的 方式 来 动态 加 载 module。 


14.3.2.2 加载 module 
加 载 module 的 动作 在 1oad_moaule 中 完成 。 
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Python 虚拟 机 会 根据 module 的 不 同类 型 选择 不 同 的 加 载 方式 。 


py 文件 与 pyc 文件 


对 于 py 文件 ，Python 虚拟 机 会 执行 1oad_source_module， 我 们 不 再 追 入 进去 ， 但 
是 我 们 可 以 猜想 ， 在 joad_source_module 中 ，Python 虚拟 机 一 定 先 对 py 文件 进行 了 编 
译 ， 产 生 了 pycodeobjaect 对 象 ， 然 后 执行 了 Pycodeobject 对 象 中 的 字 节 码 ， 因 为 叭 有 
如 此 ， 才 能 通过 执行 aef、class 等 语句 创建 pypunctionobject、pyClass0bjeect 等 对 
象 ， 才 能 在 最 后 得 到 一 个 从 符号 映射 到 对 象 的 aict。 这 个 dict 自然 也 就 是 在 loaa_ 
source_module 中 所 创建 的 module 对 象 中 维护 的 那个 Gict。 既 然 说 1oad_source. 
modules 中 创建 了 module， 那 么 可 以 猜想 , 在 10ad_source_modules 中 ,创建 的 module 
己 经 被 放置 到 了 全 局 module 集合 sys .modules 中 了 。 


对 于 pyc 文件 ，Python 虚拟 机 将 调用 load_compiled_moaule， 这 个 函数 的 动作 与 
load_source module 甚 实 是 非常 相似 的 ， 只 是 少 了 编译 的 动作 。 

package 

对 于 package，Python 虚拟 机 会 调用 1oad_package ( 见 代 码 清单 14-7)。 
代码 清单 14-7 


wl 
| 





我 们 之 前 说 了 package 同样 也 是 一 种 module, 在 10ad_package 的 代码 清单 14-7 的 [1] 
处 ， 这 一 点 显露 无 疑 。 同 时 在 代码 清单 14-7 的 [2] 处 ， 我 们 也 看 到 了 为 什么 一 个 目录 下 必 


se 
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须 有 _init_.py 才能 被 Python 认为 是 一 个 合法 的 package。 虽 然 这 里 的 代码 没有 列 出 ， 但 
是 你 可 以 想象 ， 一 旦 finad_module 失败 ，Python 必定 会 抛 出 异常 。 

值得 注意 的 是 , 10ad_package 只 会 将 package 自身 加 载 到 Python 中 ,并 不 会 对 package 
中 的 module 进行 任何 动作 ,除非 在 _init_.py 中 有 显 式 的 import 语句 ,在 16ad_package 
中 , find_module 和 1oad_module 所 搜索 的 和 加 载 的 都 仅仅 是 _init_.py, 如 果 _init_.py 
为 空 ， 那么 1oaG_package 就 不 会 加 载 package 下 的 任何 module， 而 是 沿 着 函数 调用 栈 一 
层 一 层 向 上 返回 到 import_module_level 中 ， 通 过 下 一 个 load_next 来 加 载 package 中 
的 module。 


内 建 module 


对 于 Python 内 建 的 module， 有 一 部 分 在 Python 初始 化 运行 环境 时 已 经 被 加 载 到 了 
sys.modules 中 ， 而 还 有 一 部 分 并 不 是 很 常用 的 则 没有 被 加 载 到 sys.modules 中 ， 比 如 
说 math moduie。 假如 用 户 在 运行 时 进行 import math 的 动作 ， 那 么 Python 虚拟 机 就 会 
通过 init_builtin( "math” ) 来 加 载 math module ( 见 代码 清单 14-8)。 


a 


代码 清单 14-8 
nport . 怠 ] 


[和 
ET PP 












还 记得 我 们 在 上 一 章 剖析 Python 初始 化 过 程 时 提 到 的 吗 ? Python 在 内 部 维护 了 一 个 
对 于 内 建 module 的 备份 ， 所 有 的 内 建 module， 一 旦 被 加 载 之 后 ， 都 会 拷贝 一 份 ， 存 到 这 
个 备份 中 ,以 后 再 次 import 时 就 可 以 不 用 再 进行 module 的 初始 化 动作 , 直接 使 用 备份 中 
缓存 的 module 就 可 以 了 。 

在 init_builtin 中 , 第 一 步 正 是 在 代码 清单 14-8 的 [I] 处 搜索 这 个 内 建 module 的 备 
份 ， 如果 搜索 到 了 ， 则 直接 返回 。 如 果 内 建 module 备份 中 并 没有 存储 我 们 需要 的 module， 
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那么 Python 虚拟 机 只 好 自己 创建 module， 并 进行 初始 化 。 


在 Python 中 , pytmport_rnittab 是 一 个 全 局 变量 ， 这 个 变量 维护 着 一 个 内 建 module 
的 完整 列表 ， 代 码 清 单 14-8 的 [3] 处 的 动作 就 是 中 廊 这 个 列表 ， 在 列表 中 查找 我 们 期 望 的 
内 建 modles 





我 们 所 期 望 的 math module 正 是 在 这 个 内 建 module 列表 中 。Python 虚拟 机 在 找到 之 
“ 后， 会 在 init_builtin 代码 清单 14-8 的 [3] 处 通过 调用 initmath 来 创建 并 初始 化 math 


modUles 





这 里 我 们 看 到 了 已 经 非常 熟悉 的 Py_InitModule4， 没 错 ， 正 是 在 Py_InitModule4 
中 ，Python 虚拟 机 创建 了 PyModuleobject 对 象 ， 并 将 其 加 入 到 了 sys .modules 中 ,并 
且 , 还 将 math_methods 中 包含 的 每 一 个 C 函数 指针 都 包装 成 了 一 个 pycFunctionObject 
对 象 ， 加 入 到 了 所 创建 的 PyModuleobject 对 象 的 名 字 空 间 之 中 。 


到 此 ， 对 内 建 对 象 的 加 载 动 作 也 就 大 功 告 成 了 - 

C 扩展 module 

Python 的 一 大 卖点 就 是 可 以 和 C/C++ 等 无 乡 集 成 ， 但 是 受 Python 的 设计 所 限 ， 并 不 
是 随意 编写 的 一 个 C/C++ 的 模块 都 能 被 Python 所 接受 ， 而 是 必须 按照 一 定 的 规则 来 编写 
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Python 的 扩展 模块 。Python 是 如 何 调 用 C 语言 编写 的 扩展 module? 对 这 一 点 的 剖析 关系 
到 能 否 深刻 理解 为 什么 要 以 这 样 的 规则 来 编写 Python 扩展 模块 ， 

那么 Python 将 调用 _Pyimport_LoadDynamicModules 

代码 清单 14-9 


YE- 省 
Sn i, | 
JJ 是 = 各 起 
: “EV .Je 






需要 指出 的 是 ,在 不 同 的 操作 系统 中 ， 用 C 编写 Python 扩展 module 得 到 的 结果 是 不 
同 的 ， 比 如 在 Windows 下 结果 是 dll (pyd)， 而 在 Linux 下 就 是 so。 所 以 加 载 Python 扩展 
module 的 函数 是 和 平台 相关 的 , 这 里 我 们 剖析 的 是 加 载 windows 下 dll 文件 中 Python 扩展 
module 的 代码 ， 其 他 平台 的 加 载 动作 与 此 类 似 ， 

可 以 看 到 ，Python 对 于 扩展 module， 也 动用 了 module 备份 ， 在 代码 清单 14-9 的 [1] 
处 ， 如 果 备 份 中 有 此 module, 那么 Python 虚拟 机 将 直接 返回 ; 如 果 备 份 中 没有 此 module， 
则 Python 虑 拟 机 会 加 载 该 module， 并 在 代码 清单 14-9 的 [5 处 将 加 载 后 的 module 拷贝 一 
份 到 module 备份 中 。 

代码 清单 14-9 的 [41、6] 两 处 上 只是 为 了 在 已 经 加 载 的 module 中 添加 一 个 _ sile_ 属 
性 。 在 代码 清单 14-9 的 [4] 之 前 ，Python 虚拟 机 已 经 完成 了 module 的 加 载 工 作 。 所 以 ， 对 
于 加 载 dl 中 的 Python 扩展 module， 关 键 的 代码 在 代码 清单 14-9 的 [2] 和 [3] 处 。 


代码 清单 14-9 的 [21 会 打开 拥有 Python 扩展 module 的 dl 文件 ， 并 从 该 dl 文件 中 获 
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得 module 初始 化 通 数 的 起 始 地 址 。 在 进入 [2] 处 的 _PyTmport_GetDynEoadFunc 之 前 , 我 
们 先 来 看 一 看 这 时 两 个 非常 重要 的 参数 。 假 如 我 们 进行 了 “import abc” 的 动作 ， 而 abc 
module 是 在 abc.dll 中 实现 的 ， 那 么 在 代码 清单 14-9 的 四 处 ，name 的 值 为 “abc”， 而 
shortname 的 值 也 为 “abc”( 见 代码 清单 14-10)。 

代码 清单 14-10 





在 代码 清单 14-10 的 四 处 ，Python 虚拟 机 获得 了 module 中 初始 化 函数 的 函数 名 ， 在 
这 里 ，abc module 的 初始 化 函数 名 为 initabc。 到 了 这 里 ， 我 们 应 该 能 够 理解 为 什么 在 
用 C 编写 名 为 usermodule 的 Python 扩展 module 时 ， 一 定 要 有 一 个 le EE 
数 了 。 这 其 实 是 一 个 协议 ， 只 有 在 我 们 编写 的 扩展 module 遵循 Python 设计 时 所 采用 各 
个 协议 ，Python 才能 和 扩展 module 建立 起 联系 。 








RN 
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Python 虚拟 机 在 代码 清单 14-10 的 [2] 处 调用 了 Win32 API， 将 dll 文件 加 载 到 内 存 中 。 
如 果 如 载 失败 , 那么 自 不 必 言 ， 虚拟 机 将 抛 出 异常 ,然而 奇怪 的 是 , 在 加 载 成 功 之 后 , Python 
虚拟 机 并 不 急于 获得 module 初始 化 函数 的 地 址 ， 而 是 在 代码 清单 14.10 的 [3]、 [条 、[5] 处 
进行 了 一 连 曲 的 奇怪 动作 。 这 些 动作 有 秆 么 意义 呢 ? 

在 前 面 分 析 Python 虚拟 机 的 开始 ， 我 们 就 曾 看 到 ， 在 Python 的 发 展 历史 上 ， Python 
所 使 用 的 字 节 码 指令 在 不 断 发 生 改 变 。 同 样 ， Python 向 外 所 暴露 的 C 接口 也 可 能 发 生 改 变 。 
假如 我 们 的 扩展 module 在 创建 时 链接 的 是 python25.dll, 而 我 们 当前 使 用 的 Python 环境 是 
Python 2.0 (python20.dl1)， 这 就 隐藏 着 一 个 可 能 ， 即 扩展 module 中 所 使 用 的 C 接口 并 没 
有 在 python20.dll 中 提供 。Python 为 了 避免 这 样 的 不 兼容 情况 的 出 现 ， 在 代码 清单 14-10 
的 B]、[ 外 、[5] 处 进行 了 锐 容 性 的 检查 。Python 虚拟 机 会 检查 当前 运行 的 Python 所 使 用 的 
dl 文件 是 否 与 扩展 module 所 引用 的 dl 文件 匹配 ， 如 果 不 匹 配 ， 则 Python 虚拟 机 会 抛 出 
异常 。 

如 果 加 载 dl 文件 顺利 ， 而 且 也 通过 了 兼容 性 检查 ， 那 么 Python 虚拟 机 将 再 次 调用 
Win32 API， 获 得 module 初始 化 函数 的 地 址 。 

这 样 ， 程 序 的 流程 回 到 了 _pyImport_LoadDynamicModule 的 代码 清单 14.9 的 [3] 处 ， 
在 这 里 ，Python 虚拟 机 开始 调用 module 的 初始 化 函数 (initabc)， 完 成 了 module 的 加 载 
工作 。 需 要 特别 注意 的 是 ,这 个 初始 化 函数 是 在 山中 提供 的 ， 我 们 来 看 一 个 用 C 编 写 Python 
扩展 module 的 例子 。 





"ee 
"A re 
和 








注意 ;在 inirabc 中 ， 又 调用 了 Python 的 C 接口 。 回 想 一 下 前 面 我 们 刚刚 剖析 过 的 
Python 虚拟 机 对 内 建 module 的 加 载 动 作 ， 那里 出 现 了 一 个 “py_tnitModule3({ “iath” ? 
math_pethods，fmath_doc) ， 而 这 里 出 现 了 一 个 “py _ tnitModuleft “abe” ， abc_ 
methods)”， 简 直 太 像 了 ,现在 我 们 敢 打 赌 ， C 扩展 module 的 加 载 实质 与 内 建 module 的 
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没 错 , 原来 py_InitModule 和 py_InitModule3 是 一 样 的 , 都 只 是 Py_InitModules 
的 化 身 而 已 ,对 于 Py_tnitModule4, 我 们 已 经 很 熟悉 了 ,所 以 现在 可 以 清楚 地 知道 , Python 
将 在 sys .modules 中 创建 一 个 名 为 abc 的 module。 然 后 遍历 abc_methods 中 的 每 一 个 
PyMethodDef 结构 体 ， 并 创建 pycFunctionObject 对 象 ， 将 此 对 和 象 和 其 对 应 的 操作 名 作 
为 属性 添加 到 abc module 中 。 正 如 我 们 所 料 ， 与 加 载 内 建 module 的 过 程 一 模 一 样 。 


14.3.3 from 与 import 


在 第 3 节 的 开始 ， 我 们 就 已 经 提 到 ， 当 Python 虚拟 机 执行 的 是 “from a import b， 
c” 时 ，import_module_level 中 的 fromlist 参数 将 不 为 py_None， 这 将 导致 Python 虚 
拟 机 进行 一 些 额外 的 动作 ， 同 时 会 导致 import_module_level 的 返回 值 发 生 改变 《〈 郊 代 
码 清单 14-11)。 


代码 清单 14-11 






当 Eromlist 不 为 宝 时 ，Python 虚拟 机 将 进行 一 个 ensure_fromlist 的 动作 ， 这 个 
动作 到 底 做 了 些 什么 事 昵 ? 考虑 一 下 “from a import bp，c”， 如 果 这 个 语句 能 成 功 完 成 ， 
那么 一 定 意味 着 ， 在 符号 “a” 对 应 的 module 对 象 的 名 字 空 间 中 ， 必 有 两 个 符号 ， 一 个 名 
为 i 男 一 个 名 为 Wo 

更 进一步 ,“b” 或 “c” 这 两 个 符号 可 以 不 在 “a” 对 应 的 module 对 象 的 名 字 空 间 中 ， 
但 通过 “a”， 必 须 能 够 发 现 符号 “pb” 或 “c”， 比 如 在 图 14-25 所 示 的 例子 中 ， 如 果 执 行 
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“from A import mod2”， 尽 管 moa2 并 不 在 对 应 的 moaule 对 和 象 的 名 字 空 间 中 ， 但 是 
Import 机 制 能 够 根据 “aa” 发 现 “moa2”， 所 以 ， 这 也 是 合法 的 。 


函数 ensure_fromliast 的 作用 就 是 确保 在 eail 中 能 够 发 现 Fromiist 中 的 所 有 符号 ， 
时 的 tail 对 应 的 是 一 个 module 对 象 。 


bk 
Wen .eo 
a ww a ws W 
? 它 to 


这 






到 了 这 里 ， 你 能 够 理解 py 文件 中 通常 出 现 的 _al1_ 到 底 是 何方 神圣 了 吧 @。 


14.4_Python 中 的 import 操作 


在 本 节 中 ， 我 们 将 研究 Python 中 各 种 import 操 作 所 对 应 的 字 节 码 指令 序列 。 通过 本 
节 的 剖析 ， 我 们 就 能 更 加 深入 地 了 解 Python 中 各 种 import 操作 所 完成 的 动作 。 
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14.4.1 Import module 






这 是 我 们 在 本 章 开 头 考察 的 例子 ， 现 在 我 们 已 经 清楚 地 了 解 了 IMPORT_NaAME 的 行为 ， 
在 IMPORT_NRAME 指令 的 最 后 ,Python 虚拟 机 会 通过 sgBm_xmob 将 加 载 后 的 pyMoauleobject 
对 象 压 入 到 运行 时 栈 内 ， 所 以 随后 的 SPORE_NaME 指令 会 将 〈“sys% module object) 
元 素 对 存放 到 当前 的 local 名 字 空 间 中 。 


14.4.2 import package 






如 果 在 import 的 动作 中 涉及 到 对 package 的 import 动作 ， 那 么 IMPORT_NAME 指 今 
的 指令 参数 将 是 关于 module 的 完整 的 “路 径 ” 信 息 ，IMPORT_NAME 指令 的 内 部 将 解析 这 
个 “路 径 ”， 并 为 “xml”，“xml.sax” 和 “xml.sax.xmlreader” 都 创建 一 个 EyModuleobjeet 
对 象 ， 最 后 将 与 “xml” 对 应 的 pyModule0bject 对 象 返 回 (参考 imort_module level 
的 代码 ， 这 种 情况 下 返回 的 是 heaa， 正 好 对 应 “xml”)。 所 以 在 IMPORT_NAME 之 后 的 
sTORE_NAME 指令 只 是 在 当前 的 local 和 名字 空间 中 加 入 了 一 个 “xml” 符 号 。 


14.4.3 from & import 







注意 ; 这 里 的 “LoOAp_coNsTt 1” 指 令 的 结果 不 再 是 Nonse 了， 而 是 一 个 cupie 对 象 ， 
也 就 是 我 们 之 前 在 14.3.3 节 中 提 到 的 fromlist。 

随后 的 “IMPORT_NaAME 0” 最 终 在 import_module_level 中 将 返回 sail， 也 就 是 符 

号 “xml.sax” 对 应 的 module 对 象 〈 这 一 点 非常 重要 ， 理 解 了 这 一 点 ， 你 就 能 理解 Python 

内 建 函 数 _import_ 在 函数 参数 fromlist 不 同时 的 不 同行 为 了 )， 以 供 指令 IMPORT_FROM 
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现在 已 经 很 清楚 了 ,在 iMPORT_FROM 指 令 执 行 时 ,w 是 值 为 “xmlreader ”的 Pystring- 
object 对 象 ， 而 v 则 基 在 IMPORT_NAME 指令 中 返回 的 那个 cail， 那 么 IMPORT_FROM 指 
令 代码 的 关键 就 在 于 那个 import_from 水 数 了 。 






非常 简单 ， 其 实 就 是 在 “xmlsax ”对 应 的 module 对 和 象 的 名 字 空 间 中 搜索 符号 
“xmlreader”， 显然 ， 这 个 搜索 动作 是 能 够 成 功 的 。 
最 后 会 由 STORE_NRME 指令 将 符号 “xmlreader” 与 import_from 中 搜索 得 到 的 结果 
捍 在 一 起 ， 存 放 到 当前 的 local 名 字 空 间 中 。 


所 以 , 最 后 在 local 名 字 空 间 中 , 只 出 现 了 我 们 期 望 的 “xmlreader "符号 , 尽管 xml.sax 
所 对 应 的 module 对 象 被 创建 了 , 并 且 也 被 加 入 到 了 sys .modules 中 ,但 这 个 过 程 被 Python 
隐藏 了 ， 如 果 仅 仅 从 操作 的 结果 来 看 的 话 ， 我 们 对 这 些 中 间 的 动作 也 是 一 无 所 知 的 。 

对 于 from 和 import 的 组 合 ， 还 有 一 种 “Erom xml import *” 这 样 的 形式 ， 这 种 形 
式 牵涉 到 在 module 文件 中 的 一 个 特殊 符号 :“__al1_”， 我 们 利用 这 个 符号 可 以 控制 
module 中 想 要 暴露 给 外 界 的 符号 。“ From xml import *” 编 译 的 结果 中 最 关键 的 是 
IMPORT_STAR 这 个 指令 ， 而 指令 的 实现 代码 中 最 重要 的 部 分 则 最 终归 结 到 import_from_ 
all 这 个 函数 ， 这 里 就 不 深入 了 。 有 兴趣 的 读者 自行 剖析 一 下 import_frem_all 函数 ， 
看 看 _all_ 这 个 符号 是 如 何 影响 module 的 载 入 的 。 






14.4.4 


AT "wn i 


import & as 
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在 import 动作 中 加 入 符号 重 命名 的 机 制 非常 简单 ， 动 态 加 载 的 过 程 与 我 们 之 前 的 分 
析 完 全 一 致 ， 只 是 在 通过 stoRE_NAME 指令 向 当前 的 lcoal 名 字 空 间 引 入 符号 时 ,加 入 的 
是 我 们 通过 “as” 指 定 的 符号 “myreader”， 而 不 再 是 “xmlreader”J 了 ， 


14.4.5 reload 


Python 虚拟 机 最 终 将 调用 builtin module 中 的 reload 操作 ( 对 应 函数 builtin, 
reload) 来 完成 重新 载 入 的 动作 。 在 builtin_reload 中 ， 将 最 终 调用 load_module, 
蜡 ， 就 是 这 个 我 们 之 前 详细 分 析 过 的 家 伙 。 

假如 stemer module 是 由 py 文件 实现 的 module， 那 么 在 load_module 中 ， Python 
虚拟 机 将 调用 与 py 文件 对 应 的 加 载 操 作 10ad_source_module。 而 在 load_source_ 
module 这 个 函数 中 ， 将 进入 PyImport_ExeccodeModuleEzx， 在 这 个 函数 中 ， 我们 就 能 看 
到 为 什么 在 stemer.py 中 的 删除 操作 不 会 影响 到 sys .modules 中 的 那个 与 stemer module 
对 应 的 module 对 象 〔 见 代码 清单 14-12)。 


代码 清单 14-12 
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在 代码 清单 14-12 的 [4] 处 ， 只 是 向 stemerpy 对 应 的 module 对 象 中 更 新 或 添加 了 新 的 
符号 。 如 果 有 符号 在 源 文件 中 被 删除 ， 那 么 这 种 删除 是 不 会 影响 到 stemer 的 module 对 象 
中 的 Gict 的 。 


14.4.6 内 建 module: imp 


在 py 源 代码 文件 中 的 import 语句 是 静态 的 ， 其 实 ，Python 也 提供 了 动态 的 import 
机 制 ， 即 在 运行 时 动态 地 选择 需要 import 的 对 象 ，Python 通过 一 个 jmp 前 内 于 module 
暴露 了 我 们 之 前 所 考察 的 用 于 import 机 制 的 核心 接口 。 


我 们 说 imp 是 一 个 内 建 module, 那么 根据 我 们 现在 的 经 验 , 一 定 有 一 个 imp_methods 





这 里 ， 我 们 就 不 再 详细 地 前 析 imp_methoas 了 ， 有 兴趣 的 读者 可 以 参考 Python 的 源 
代码 ， 你 会 发 现 ， 这 些 操作 其 实 就 是 对 我 们 之 前 讨论 的 Python 中 import 机 制 的 核心 函数 
的 包装 而 已 。 


14.5 与 module 有 关 的 名 字 空间 问题 
在 “Python 虚拟 机 框架 ”一 章 中 ， 当 我 们 初次 系统 性 地 接触 名 字 空 间 时 ， 其 中 有 一 个 


例子 是 与 module 相关 的 ， 米 回顾 一 下 《( 见 代码 清单 14-13)。 
代码 清单 14-13 
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orint owner 1/{2} 
尽管 在 modulel.py 中 ， 符 号 “owner” 对 应 的 是 <BEring ‘modulel*>， 但 是 在 代码 
清单 14-13 的 [1 处 ， 输 出 的 结果 却 是 module2.py 中 的 符号 “owner” 对 应 的 值 。 我 们 说 这 
是 Python 的 LEGB 规则 所 导致 的 结果 ， 因 为 print owner 这 个 语句 是 在 module2.py 中 ， 
所 以 根据 LEGB 规则 ， 找 到 的 是 在 module2.py 中 的 符号 owner。 但 是 ,问题 是 , 这 一 切 是 
怎么 实现 的 ? 

根据 上 一 章 中 对 初始 化 时 名 字 空 间 的 分 析 ， 我 们 知道 ， 在 代码 清单 14-13 的 [1] 之 前 ， 
global 名 字 空 间 中 一 定 有 一 个 符号 “owner”， 且 符号 关联 着 <string ‘modulel'>。 好 ， 
我 们 接受 LEGB， 但 在 调用 show_owner 时 ， 不 是 应 该 在 global 名 字 空 间 中 找到 <scring 
‘moGulel'> 才 对 蚂 ? 看 来 唯一 的 答案 就 是 其 中 这 个 global 名 字 空 间 发 生 了 变化 ， 问 题 的 
关键 在 于 函数 调用 机 制 。 


为 了 搞 清 楚 这 一 切 ， 我 们 先 来 看 看 module2 .show_owner{) 这 条 表达 式 的 编译 结果 。 






Python 虚拟 机 执行 “18 LoaD_NAME 0” 的 结果 是 得 到 了 一 个 ByModuleObject 对 象 ， 
而 “21 LoAD_ATTR 2” 指 令 则 是 一 个 纯粹 的 名 字 空 间 搜 索 指 令 ， 它 将 使 Python 岩 拟 机 在 
PyModuleobject 对 象 的 名 字 空 间 中 搜索 符号 “show_owner”， 这 个 符号 显然 对 应 着 一 个 
Python 虚拟 机 在 对 module2.py 进行 import 动作 时 创建 的 pyFunctionobject 对 象 。 图 
14-26 展示 了 这 一 过 程 。 


和 





本 FS 
mocue? | moan 


= 
由 





18LOAD_NAME 0 
21LOAD_ATTR 2 





| ‘ower | <stingmodule2> | 
到 一 Sow ower | <functon Show- owners 
图 14-26 Python 虚拟 机 获得 符号 “show_ower” 的 过 程 
但 是 ， 在 这 两 条 指令 中 ， 都 不 会 改动 giobal 名 字 空 间 ， 而 下 一 步 就 是 “24 caLL_ 
FUNCTION 0” 这 条 函数 调用 指令 了 ， 而 改动 global 名 字 空 间 的 动作 就 发 生 在 这 里 。 
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回忆 一 下 前 面 剖 析 的 函数 调用 机 制 ， 我们 知道 ， 函 数 调用 实际 上 会 创建 一 个 新 的 “ 栈 
帧 ”(PyFrameobject 对 象 )， 在 这 个 pyFrameObject 对 象 的 环境 中 执行 函数 内 的 指令 。 
再 回忆 下 创建 pyFrameobjecc 对 象 的 函数 ， 我 们 会 发 现 ， 果 然 就 有 一 个 设置 global 名字 
空间 的 动作 。 








但 是 俗话 说 得 好 ， 一 个 巴掌 拍 不 啊 ， 光 有 PyFrame_New 内 部 妄图 改朝换代 的 愿望 还 
不 够 ， 还 得 Python 虚拟 机 在 调用 pyFrame_New 时 传 入 一 个 不 同 于 modulel.py 中 global 
名 字 空 间 的 aict 对 象 。 这 个 对 象 怡 恰 就 在 图 I4-26 中 符号 “shiow_owner” 对 应 的 
pyfunct ionobiject 对 和 象 中 a 

Python 对 module2.py 的 编译 结果 中 ，“def show_ower (ji :” 这 条 表达 式 会 对 应 一 条 
MAKE_FUNCTION 指令 。 来 回顾 一 下 这 条 指令 都 干 了 什么 。 





当 Python 虚拟 机 在 modulel.py 中 磁 到 “import module2.py” 时 ， 会 对 module2.py 
进行 iinport 动作 , 实际 上 , 也 就 是 执行 以 下 module2.py, 在 这 个 过 程 中 , MAKE_FUNCTION 
指令 就 会 被 Python 虚拟 机 执行 ， 我 们 看 到 ， 确 实 ，MAKE_FUNCTION 将 当前 活动 的 
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PyFrameObject 对 象 的 global 名 字 空 间 保存 到 了 它 所 创建 的 pyFunctionObject 对 和 象 中 。 


在 本 章 14.3.2.2 节 中 ， 我 们 看 到 ， 对 .py 文件 的 import 动作 最 终 将 委托 给 loaa_ 
source_module 函数 ， 如 果 你 顺 着 这 个 函数 追 下 去 ， 会 最 终 发 现 对 pyEval_EvalcodeEx 
的 调用 ， 这 意味 着 Python 在 import 时 ， 会 创建 新 的 pyFrameobject 对 和 象 ， 这 个 
PygrameObject 对 象 中 的 global 名 字 空 间 最 初 会 是 一 个 空 的 aict 对 象 , 但 是 关键 在 于 ， 
这 个 新 建 的 pyFrameobject 对 象 中 的 ee 和 名 字 空 间 和 global 空间 都 指向 同一 个 dict 
对 象 〈 回 忆 一 下 上 一 章 对 Python 初始 化 时 第 一 个 名 字 空 间 创 建 过 程 的 观察 )， 所 以 在 执行 
module2.py 中 的 代码 时 ,会 影响 local 名 字 空 间 ,也 就 影响 了 global 名 字 空 间 , 最 终 MAKE_ 
FUNCTION 指令 创建 的 byFunctionobject 对 象 中 的 func_giobals 中 也 就 包 仍 了 
module2.py 中 的 所 有 符号 。 


现在 只 剩 下 最 后 一 步 了 ,在 modulel.py 中 ， 对 show_owner 函数 进行 调用 时 ， 在 某 个 
地 方 ，Python 虚拟 机 一 定 抽取 了 show_owner 对 应 的 pyFunctionobject 对 和 象 中 的 包含 
module2.py 中 所 有 符号 的 func_globals， 并 将 其 传递 给 了 PyFrame_New， 这 样 才能 保证 
LEGB 规则 最 终 找到 的 是 module2.py 中 的 符号 “ower”。 好 了 ，fast_function， 该 你 出 
场 了 。 






正 是 在 fast_function 中 , 一 个 全 新 的 global 名 字 空间 产生 了 , 并 最 终 维护 了 LEGB 
规则 的 正确 性 。 这 么 一 个 简单 的 现象 ， 却 涉及 了 Python 内 部 运作 的 方方面面 ， 但 最 关键 
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的 一 点 ， 还 是 名 字 空 间 ， 名 字 空 间 可 谓 是 Python 的 灵魂 所 在 。 当 然 ， 更 准确 地 说 ， 还 有 
男 外 一 个 灵 瑰 : 最 内 幅 套 作用 域 规 则 ， 正 是 这 个 规则 决定 了 这 些 实现 。 
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并 发 多 线程 的 应 用 系统 ， 是 在 日 常 的 软件 开发 中 经 常会 遇 到 的 需求 。 现 在 的 编程 语言 
都 为 多 线程 开发 提供 了 很 好 的 支持 , 无 论 是 通过 库 的 支持 还 是 将 多 线程 机 制 内 建 在 语言 之 
中 。Python 也 为 多 线程 系统 的 开发 提供 了 很 好 的 支持 。 


闻 样 身 为 动态 语言 ，Ruby 也 提供 了 多 线程 的 支持 ， 但 是 在 Ruby 1.9 之 前 的 多 线程 机 
制 是 在 语言 的 实现 中 模拟 了 线程 及 线程 调度 机 制 , 而 并 没有 使 用 操作 系统 本 身 的 线程 机 制 

(在 以 后 的 描述 中 ,我 们 称 为 原生 线程 ),Ruby 1.9 中 整合 了 YARV 作为 Ruby 新 的 虚拟 机 ， 
在 YARV 中 , 将 操作 系统 的 原生 线程 引入 了 Ruby。 每 一 个 Ruby 线程 都 对 是 操作 系统 上 的 
一 个 线程 ， 在 Ruby 内 部 ， 维 护 着 一 个 全 局 资源 锁 ， 一 个 Ruby 线程 必须 首先 获得 这 个 锁 ， 
才能 成 为 活动 的 线程 ， 从 而 使 用 Ruby 虚拟 机 的 全 局 资源 。 


这 一 切 ， 在 Python 中 早已 实现 ，Python 中 的 线程 从 一 开始 就 是 操作 系统 的 原生 线程， 
而 Python 虚拟 机 也 同样 使 用 一 个 全 局 解释 器 锁 〈Global Interpreter Lock，GIL) 来 互 斥 线 
程 对 Python 虚拟 机 的 使 用 。 


15.1 ”GIL 与 线程 调度 


为 了 理解 Python 为 什么 需要 Global InterpreterLock (GIL)， 考虑 这 样 的 情形 : 假设 有 
两 个 线程 &、B， 在 两 个 线程 中 ， 都 同时 保存 着 对 内 存 中 同一 对 象 obj 的 引用 ， 也 就 是 说 ， 
这 时 6bj->ob_refcrnt 的 值 为 2。 如 果 销毁 对 obj 的 引用 ， 显 然 ， 将 通过 Py_DECREF 
调 玫 obj 的 引用 计数 值 。 我 们 知道 ，Py_DPCREF 的 整个 动作 可 以 分 为 两 个 部 分 : 
> --obi->ob refcnt: 


> if (obBi->ob_refcnt == 0) destory object and free memorys。 


如 果 a 在 执行 完 第 一 个 动作 之 后 ，obj->ob_refcnt 的 值 变 为 1。 不 幸 的 是 ， 恰 恰 在 
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这 个 时 候 , 线程 调度 机 制 将 A 挂 起 , 而 唤醒 了 B。 更 为 不 幸 的 是 , B 同样 也 开始 销毁 对 obj 
的 引用 。5 完成 第 一 个 动作 之 后 ，obj->ob_refcnt 为 0，B 是 一 个 幸运 儿 ， 它 没有 被 线程 
调度 打 断 ， 而 是 顺利 地 完成 了 接 下 来 的 第 二 个 动作 ， 将 对 象 销 毁 ， 内 存 释 放 。 好 了 ， 现 在 
A 叉 被 重新 唤醒 ， 可 惜 现在 已 经 物 是 人 非 ，obj->ob_refcnt 已 经 被 减少 到 0, 而 不 是 当 
初 的 1。 按照 约定 ， 傻 平平 的 A 开始 再 一 次 地 对 已 经 销毁 的 对 和 象 进 行 对 象 销毁 和 内 存 释放 
的 动作 。 这 样 的 结局 是 什么 ?具有 天 知道 。 


为 了 支持 多 线程 机 制 ， 一 个 基本 的 要 求 就 是 需要 实现 不 同 线程 对 共享 资源 访问 的 互 
斥 ，Python 也 不 例外 ， 这 正 是 引入 GIL 的 根源 所 在 。Python 中 的 GIL 是 一 个 非常 霸道 的 
互 斥 实现 ， 正 如 它 的 名 字 所 暗示 的 ，GIL 是 一 个 解释 器 (Interpreter) 一 一 为 了 呼应 GIL 
中 的 nterpreter， 本 章 中 ， 我 们 会 以 解释 器 来 称呼 虚拟 机 一 一 级 的 互 斥 机 制 ， 也 就 是 说 ， 
在 一 个 线程 拥有 了 解释 器 的 访问 权 之 后 , 其 他 的 所 有 线程 都 必须 等 待 它 释放 解释 器 的 访问 
权 , 即使 这 些 线程 的 下 一 条 指令 并 不 会 互相 影响 。 初 看 上 去 , 这 样 的 保护 机 制 粒度 太 大 本 ， 
我 们 似乎 只 需要 将 可 能 被 多 个 线程 共享 的 资源 保护 起 来 即 可 ,对 于 不 会 被 多 个 线程 共享 的 
资源 ， 完 全 可 以 不 用 保护 。 实 际 上 ， 在 Python 的 发 展 历史 中 ， 确 实 出 现 过 这 样 的 解决 方 
案 , 但 是 令 人 惊奇 的 , 这 样 的 方案 在 单 处 理 器 上 的 多 线程 实现 的 效率 上 却 没 有 GIL 的 方案 
好 。 所 以 现在 Python 中 的 多 线程 机 制 是 在 GIL 的 基础 上 实现 的 。 


当然 ， 这 样 的 方案 也 意味 着 ， 无论 如 何 ， 在 同一 时 间 ， 只 能 有 一 个 线程 能 访问 Python 
所 提供 的 AP1。 注 意 这 里 的 同一 时 间 对 于 单 处 理 器 是 毫 无 意义 的 ， 因 为 单 处 理 器 的 本 质 是 
不 可 能 并 行 的 ， 但 是 对 于 多 处 理 器 ， 情 形 就 完全 不 同 了 ， 同 一 时 间 ， 确 实 可 以 有 多 个 线程 
独立 运行 ， 然 而 Python 的 GIL 限制 了 这 样 的 情形 ， 使 得 多 处 理 器 最 终 退 化 为 单 处 理 器 ， 
性 能 大 打折 扣 。 这 一 点 其 实 早已 被 Python 社区 所 认识 ， 也 进行 了 大 量 的 探索 。 大 约 在 99 
年 的 时 候 ，Greg Stein 和 Mark Hammond 两 位 老兄 基于 Python 1.5 创建 了 一 份 去 除 GIL 的 
branch， 但 是 很 不 幸 ， 这 个 分 支 在 很 多 基准 测试 上 ， 尤 其 是 单线 程 操 作 的 测试 上 ， 效 率 只 
有 使 用 GIL 的 Python 的 一 半 左 右 。 因 为 细 粒 度 的 锁 机 制 会 导致 大 量 的 加 锁 、 解锁 的 操作 ， 
而 加 锁 、 解 锁 对 于 操作 系统 来 说 ， 是 一 个 比较 重量 级 的 动作 ， 另 一 方面 ,没有 了 GIL 的 保 
护 ， 编 写 Python 扩展 模块 的 难度 大 大 增加 。 所 以 ， 到 目前 Python 的 最 新 版 本 2.5 为 止 ， 
GIL 仍然 是 多 线程 机 制 的 基石 ， 而 我 们 也 仍然 将 视线 集中 在 单 处 理 嚣 上。 实际 上 ， 在 去 年 
5 月 份 Python 3000 的 邮件 列表 上 ，Python 的 创造 者 ，Guido， 提 出 了 一 个 比较 可 行 的 的 解 
决 方案 ， 在 多 处 理 器 的 情况 下 ， 完 全 可 以 创建 多 个 Python 进程 ， 充 分 使 用 多 处 理 咒 ， 进 
程 之 间 通 过 IPC 的 方式 进行 通信 。 当 然 ，Guido 也 仅仅 是 提出 了 这 么 一 个 想法 ， 并 没有 太 
多 的 实现 细节 透露 出 来 。 


图 15-1 显示 了 我 们 对 Python 的 多 线程 机 制 所 建立 的 一 个 粗略 的 模型 。 
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图 15-1 “Python 线程 机 制 的 粗 咯 模型 


从 之 前 的 分 析 中 ， 我 们 知道 ， 对 于 Python 而 言 ， 字 节 码 解释 器 是 Python 的 核心 所 在 ， 
所 以 Python 通过 GIL 来 互 斥 不 同 线程 对 解释 器 的 使 用 。 在 图 15-1 中 ， 三 个 拟人 化 的 线程 
A，B 和 C 都 需要 使 用 解释 器 来 执行 字 节 码 ， 以 完成 某 种 计算 ， 但 是 在 这 之 前 ， 它 们 必须 
获得 GIL， 因 为 GIL 把 守 着 通 往 字 节 码 解释 器 的 大 门 。 当 某 个 线程 (A) 获得 了 GIL 之 后 ， 
其 他 的 两 个 线程 (B，C) 只 能 等 待 A 释放 GIL 之 后 ， 然 后 才能 进入 解释 器 ， 执 行 一 些 计 
算 ， 实际 上 ，Python 的 GIL 背后 所 保护 的 不 仅仅 是 Python 的 解释 器 ， 同 样 还 有 Python 的 
CAPL, 在 C/C++ 和 Python 的 混合 开发 中 , 在 涉及 到 原生 线程 和 Python 线程 的 相互 协作 时 ， 
也 需要 通过 GIL 进行 互 斥 。 关 于 这 一 点 ， 我 们 将 在 后 面 详细 阳 述 。 


那么 A 在 何 时 释放 GIL 呢 ? 如 果 等 到 A 使 用 完了 解释 器 之 后 才 释 放 GIL， 这 也 就 意 
味 着 ,并 行 的 计算 退化 为 了 串 行 的 计算 ， 要 这 样 的 多 线程 机 制 有 什么 意义 昵 ? 所 有 毫 无 疑 
问 的 ，Python 拥有 一 套 线 程 的 调度 机 制 。 

对 于 线程 调度 机 制 而 言 ， 同 操作 系统 的 进程 调度 一 样 ， 最 关键 的 是 要 解决 两 个 问题 : 

在 何 时 挂 起 当前 线程 ， 选 择 处 于 等 待 状态 的 下 一 个 线程 ? 

在 众多 的 处 于 等 待 状态 的 候选 线程 中 ， 选 择 激活 哪 一 个 线程 ? 

在 Python 的 多 线程 机 制 中 ， 这 两 个 问题 是 分 别 由 不 同 的 层次 解决 的 。 对 于 何 时 进行 
线程 调度 的 问题 ， 是 由 Python 自身 决定 的 。 考虑 一 下 操作 系统 是 如 何 进行 进程 的 切换 的 ， 
当 一 个 进程 执行 了 一 段 时 间 之 后 ， 发 生 了 时 钟 中 断 ， 操 作 系 统 响 应 时 钟 中 断 ， 并 在 这 时 开 
始 进行 进程 的 调度 。 同 样 ，Python 中 也 是 通过 软件 模拟 了 这 样 的 时 钟 中 断 ， 来 激活 线程 的 
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调度 ,我 们 知道 , Python 字 节 码 解 释 器 的 工作 原理 是 按照 指令 的 顺序 一 条 一 条 地 顺序 执行 ， 
Python 内 部 维护 着 一 个 数值 ， 这 个 数值 就 是 Python 内 部 的 时 钟 ， 如 果 这 个 数值 为 N， 则 
意味 着 Python 在 执行 了 N 条 指令 以 后 应 该 立即 启动 线程 调度 机 制 ， 图 15-2 显示 了 如 何 获 
得 Python 内 部 默认 设 定 的 这 个 值 ， 





15-2 Python2.5 内 部 的 “时 钟 中 断 ” 间 隔 值 


图 15-2 显示 的 结果 意味 着 , 在 当前 的 2.5 中 ，Python 的 默认 行为 是 在 执行 了 100 条 指 
今 以 后 启动 线程 调度 机 制 。 实际 上 ， 这 个 值 不 仅仅 是 用 来 进行 线程 调度 的 , 在 内 部 , Python 
也 使 用 它 来 检查 是 大 有 噶 步 的 事件 Cevent) 发 生 ， 需 要 处 理 。 我 们 可 以 通过 sys.setc- 
heckinterval () 来 调节 这 个 值 。 


现在 我 们 知道 了 ，Python 控制 着 什么 时 候 进行 线程 调度 ， 当 一 个 线程 获得 了 访问 
Python 解释 器 的 所 必须 的 GIL 并 进入 Python 解释 器 后 ，Python 内 部 的 监测 机 制 就 开始 启 
动 ， 当 这 个 线程 执行 了 100 条 指令 之 后 ，Python 解释 器 将 强制 挂 起 当前 线程 ， 开 始 切 换 到 
下 一 个 处 于 等 待 状态 的 进程 。 

那么 究竟 Python 会 在 众多 的 等 待 线程 中 选择 哪 一 个 幸运 儿 呢 ? 答案 是 ， 不 知道 ， 没 
错 ， 对 于 这 个 问题 ,Python 完全 没有 插手 , 而 是 交 给 了 底层 的 操作 系统 来 解决 。 也 就 是 说 ， 
Python 借用 了 底层 操作 系统 所 提供 的 线程 调度 机 制 来 决定 下 一 个 进入 Python 解释 器 的 线 
程 究竟 是 谁 。 

这 一 点 译 关 重要 ， 这 就 意味 着 Python 中 的 线程 实际 上 就 是 操作 系统 所 支持 的 原生 线 
程 ， 而 并 非 如 坊间 所 流传 的 那样 ，Python 的 线程 并 非 原生 线程 ， 而 是 模拟 出 来 的 。Python 
中 的 多 线程 机 制 正 是 建立 在 操作 系统 的 原生 线程 的 基础 之 上 ， 对 应 不 同 的 操作 系统 ， 有 不 
同 的 实现 ， 然 而 最 终 ， 在 各 不 相同 的 原生 线程 的 基础 之 上 ，Python 提供 了 一 套 统 一 的 抽象 
机 制 ， 给 Python 的 使 用 者 一 个 非常 简单 而 方便 的 多 线程 工具 箱 ， 这 就 是 Python 中 的 两 个 
module: thread 以 及 在 其 之 上 的 threading。 


15.2” 初 见 Python Thread 





Python 所 提供 的 最 基础 的 多 线程 机 制 的 接口 是 thread module。 这 个 module 是 一 个 
builtin module， 用 CC 实现 。 在 thread module 的 基础 上 ，Python 提供 了 一 个 更 高 层 的 
多 线程 机 制 接口 ， 即 threding module,. threading module 是 一 个 标准 库 中 的 module, 
用 Python 语言 实现 ， 为 用 户 提 供 了 更 方便 的 多 线程 机 制 接 口 。 
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我 们 的 目标 是 要 前 析 Python 中 的 多 线程 机 制 是 如 何 实现 的 ， 而 非 学 习 在 Python 中 如 
何 进行 多 线程 编程 , 所 以 重点 会 放 在 threaa module 上 。 通过 这 个 module, 看 一 看 Python 
对 操作 系统 的 原生 线程 机 制 所 做 的 精巧 的 包装 。 


我 们 通过 下 面 所 示 的 thread1.py 开始 充满 趣味 的 多 线程 之 旅 。 











在 thread module 中 ，Python 向 用 户 提 供 的 多 线程 机 制 的 接口 其 实 可 以 说 少 得 可 怜 ， 
当然 ， 也 正 因为 如 此 ， 才 使 Python 中 的 多 线程 编程 变 得 非常 的 简单 而 方便 。 我 们 来 看 看 
在 thread module 的 实现 文件 threadmodule.c 中 ，thread module 为 Python 使 用 者 提供 
的 所 有 多 线程 机 制 接口 。 





我 们 发 现 ，thread moaule 中 有 的 接口 居然 以 不 同 的 形式 出 现 了 两 次 ， 比 如 
“start_new_thread” 和 “start_new”， 实 际 上 在 Python 内 部 ， 对 应 的 都 是 thread_ 
PyThread_start_new_thread 这 个 函数 。 所 以 ，thread modiile 所 提供 的 接口 ， 真 的 是 
少 得 可 怜 。 在 我 们 的 thread1.py 中 我 们 使 用 了 其 中 两 个 接口 。 关 于 这 两 个 接口 的 详细 介绍 ， 
请 参阅 Python 文档 。 
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如 图 15-3 展示 了 thread1.py 的 运行 结果 。 


FPythonBook\Sre\thread>python threadl.py 
main thread id : 3288 

Hello fom main thread 3288 

sub threadid; 1132 


Helle from sub thread 1132 
Hello from main thread 3288 
Hello from sub thread 1132 
Hello from main thread 3288 
Hello from sub thread 1132 





图 15-3 thread1.py 的 运行 结果 


15.3 Python 线程 的 创建 


在 Python 的 threaa module 所 提供 的 接口 中 , 一 定 不 能 少 的 肯定 是 创建 线程 的 接口 ， 
倘若 没有 这 个 接口 ， 生 活 还 有 什么 意义 呢 @? 在 上 面 的 threadl.py 中 ， 我 们 正 是 通过 其 提 
供 的 start_new_thread 创建 了 一 个 崭新 的 线程 。 好 ， 我 们 就 进入 这 个 start_new_ 
thread， 看 看 Python 是 如 何 进行 创世纪 的 工作 的 〈 见 代码 清单 15-1)。 
代码 清单 15-1 


Ee 









上 | [ Eee 一 
在 thread_ByThread_start_new_thread 中 ，Python 虚拟 机 通过 三 个 主要 的 动作 ， 
完成 一 个 线程 的 创建 。 
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代码 清单 15-1 的 {1]、[2] 和 [3] 分 别 有 如 下 含义 ; 
[1] 创建 并 初始 化 bootstate 结构 boot, 在 boot 中 , 将 保存 关于 线程 的 一 切 信息 ， 
如 : 线程 过 程 ， 线 程 过 程 的 参数 等 。 
[2] 初始 化 Python 的 多 线程 环境 。 
[3] 以 boot 为 参数 ， 创 建 操作 系统 的 原生 线程 。 


在 代码 清单 15-1 的 [1] 中 ， 我 们 注意 到 boot->inter5 中 保存 了 Python 的 pyinter- 
preterState 对 象 ， 这 个 对 象 中 携带 了 Python 的 module pool 这 样 的 全 局 信息 ，Python 中 
所 有 的 thread 都 会 共享 这 些 全 局 信息 。 

关于 代码 清单 15-1 的 [2] 处 所 示 的 多 线程 环境 的 初始 化 动作 ， 有 一 点 需要 特别 说 明 ， 
当 Python 启动 时 ， 是 并 不 支持 多 线程 的 。 换 名 话说 ，Python 中 支持 多 线程 的 数据 结构 以 
及 GIL 都 是 没有 创建 的 ，Python 之 所 以 有 这 种 行为 是 因为 大 多 数 的 Python 程序 都 不 需要 
多 线程 的 支持 。 假 如 一 个 简单 地 统计 词 频 的 Python 脚本 中 居然 出 现 了 多 线程 ， 面 对 这 样 
的 代码 ， 我 们 一 定 都 会 抓 狂 的 人 @。 


对 多 线程 的 支持 并 非 是 没有 代价 的 ， 最 简单 的 一 点 ， 如 果 激 活 多 线程 机 制 ， 厕 执行 的 
Python 程序 中 并 没有 多 线程 , 那么 在 100 条 指令 之 后 , Python 虚拟 机 间 样 会 激活 线程 的 调 
度 。 而 如 果 不 激活 多 线程 ，Python 虚拟 机 则 不 用 做 这 些 无 用 功 。 所 以 Python 选择 了 让 用 
户 激活 多 线程 机 制 的 策略 。 在 Python 虚拟 机 启动 时 ， 多 线程 机 制 并 没有 被 激活 ， 它 只 支 
持 单线 程 ， 一 旦 用 户 调用 thread. start_new_thread, 明确 指示 Python 虚拟 机 创建 新 的 
线程 ，Python 就 能 意识 到 用 户 需 要 多 线程 的 支持 ， 这 个 时 候 ，Python 虚拟 机 会 自动 建立 多 
线程 机 制 需要 的 数据 结构 、 环 境 以 及 那个 至 关 重 要 的 GIL。 


15.3.1 建立 多 线程 环境 


多 线程 环境 的 建立 , 说 得 直 白 一 点 ,主要 就 是 创建 GIL ,我 们 已 经 知道 GIL 对 于 Python 
的 多 线程 机 制 的 重要 意义 ， 然 而 这 个 GIL 到 底 是 如 何 实现 的 呢 ， 呢 ， 这 是 一 个 很 有 趣 的 问 





Python 总 村 草 匠 一 一 深度 柠 菇 动态 访 语 蕉 心 共 枯 





398 旦 第 15 章 Python 多 线程 机 制 


终于 见识 到 了 神秘 的 GIL (interpreter_lock)， 没 想到 吧 ， 万 万 没 想到 ， 它 居然 指示 一 
个 简单 的 void*。 但 是 转念 一 想 ， 在 C 中 void* 儿 乎 可 以 是 任何 东西 ,这 家 伙 ， 可 是 个 万 
能 容器 啊 。 

可 以 看 到 ， 无 论 创建 多 少 个 线程 ，Python 建立 多 线程 环境 的 动作 只 会 执行 一 次 。 在 
pyEval_InitThreads 的 开始 ， Python 会 检查 GIL 是 否 已 经 被 创建 如 果 是 ， 则 不 青 进行 
任何 动作 ， 否 则 ， 就 会 创建 这 个 GIL。 创建 GIL 的 工作 由 PyThread_allocate_lock 完 
成 ， 我 们 来 看 一 看 这 个 GIL 到 底 是 何方 神圣 。 


[thr 


| 
) fr er 










在 这 里 ， 我 们 终于 看 到 了 Python 中 多 线程 机 制 的 平台 相关 性 ， 在 Python25\Python 目 
录 下 ， 有 一 大 批 thread_**#h 这 样 的 实 件 ， 在 这 些 文 件 中 ， 包 装 了 不 同 操作 系统 的 原生 线 
程 ， 并 通过 统一 的 接 昌 暴露 给 Python， 比 如 这 里 的 pyThread_allocate_lock 就 是 这 样 
一 个 接口 。 我们 这 里 的 thread_nt.h 中 包装 的 是 Win32 平台 的 原生 thread， 在 本 章 中 后 面 的 
代码 前 析 中 ， 还 会 有 大 量 与 平台 相关 的 代码 ， 我 们 都 以 Win32 平台 为 例 。 

在 PyThread altlocate_lock 中 ， 与 pypval_InitThreads 非常 类 似 的 ， 它 会 检查 
一 个 initialized 的 变量 ， 如 果 说 GIL 指示 着 Python 的 多 线程 环境 是 否 已 经 建立 ,那么 
这 个 inicialized 变量 就 指示 着 为 了 使 用 底层 平台 所 提供 的 原生 thread, 必须 的 初始 化 动 
作 是 否 完成 。 这 些 必须 的 初始 化 动作 通常 都 是 底层 操作 系统 所 提供 的 API， 不 同 的 操作 系 
统 可 能 需要 不 同 的 初始 化 动作 。 在 Win32 平台 下 ， 不 需要 任何 的 初始 化 动作 ， 所 以 
PyThread init threagd 的 唯一 作用 就 是 设置 initialized 变量 ; 
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在 ByThread_allocate_lock 中, 出现 了 一 个 关键 的 结构 体 PNRMUTEX, 我 们 发 现 ， 
这 个 结构 体 是 函数 的 返回 值 ， 实 际 上 也 就 是 pyEval_InitThread 中 需要 创建 的 那个 
interPperbter_: lock (GIE)', 原来 GIH 就 是 这 个 家 伙 ， 我 们 来 看 一 看 它 的 真 身 。 








在 NRMUTEX 中 ， 所 有 的 数据 成 员 的 类 型 都 是 Win32 平台 下 的 类 型 风格 了 ，owned 
和 thread_id 都 很 普通 ， 而 其 中 的 HANDLE hevent 却 值得 注意 ， 我 们 来 看 看 AtlocNon- 
RecursiveMutex 究竟 为 这 个 hevent 鹤 备 了 什么 。 





一 切 真相 大 白 了 ， 原 来 ，GIL (NRMUTEX) 中 的 hevent 就 是 Win32 平台 下 的 Event 
这 个 内 核对 象 ， 而 其 中 的 thread_id 将 记录 任 一 时 刻 获 得 GIL 的 线程 的 id。 

到 了 这 里 ,Python 中 的 线程 互 斥 机 制 的 真相 渐渐 浮 出 水 面 , 看 来 Python 是 通过 Win32 
下 的 Event 来 实现 了 线程 的 互 斥 ， 熟 悉 Win32 的 朋友 马上 就 可 能 想到 ， 与 这 个 Event 对 应 
的 ， 必 定 有 一 个 WaitForsingleObject。 

在 PyEval_InitThreads 通过 pyThread_allocate_lock 成 功 地 创建 了 GIL 之 后 ， 当 
前 线程 就 开始 遵循 Python 的 多 线程 机 制 的 规则 ， 在 调用 任何 Python C API 之 前 ， 必 须 首先 
获得 CGI。 四 PyBval_ InitTmhreads 紧 接 着 通过 sana odin eid he GIL; 





Ts 
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PyThread_acquire_lock 有 两 种 工作 方式 ， 通 过 函数 参数 waitflag 来 区 分 。 这 个 
waitflag 指示 当 GIL 当前 不 可 获得 时 ， 是 否 进 行 等 待 ， 更 直接 地 说 ， 就 是 当前 线程 是 否 
通过 WaitForsingleobject 将 自 身 挂 起 ， 直 到 别 的 线程 释放 GIL， 然后 由 操作 系统 将 自 
己 唤醒 。 

如 果 waitflag 为 0，Python 会 检查 当前 GIL 是 否 可 用 ，GIL 中 的 owiisa 是 指示 GIL 
是 否 可 用 的 变量 , 在 前 面 的 IniitializeNonRecursiveMutex 中 我 们 看 到 这 个 值 被 初始 化 
为 -1，Python 会 检查 这 个 值 是 否 为 -1， 如 果 是 ， 则 意味 着 GIL 可 用 ， 必 须 将 其 置 为 0， 当 
owned 为 0 后 ， 表 示 该 GIL 已 经 被 一 个 线程 占用 ， 不 再 可 用 。 对 于 我 们 这 里 分 析 的 调用 
Py8val_-InitThread 的 主线 程 而 言 ， 由 于 在 初始 化 GIL 之 后 就 调用 pyThread 
acquire_lock 申请 GIL， 到 这 时 ， 并 没有 第 二 个 线程 被 创建 ， 所 以 主线 程 会 轻而易举 地 
获得 GIL 的 使 用 权 。 
注意 这 里 的 检查 和 更 新 ownea 的 操作 是 道 过 一 个 Win32 的 系统 APF- 一 InterlockedL- 









CompareExchange 一 一 来 完成 的 。 这 个 API 是 一 个 原子 操作 ， 其 函数 原形 和 功能 如 下 。 





与 TnterlockedcompareExchange 相同 的 ， Interl6ckedfncrement 也 是 一 个 原子 
操作 , 其 功能 是 将 mutex->owned 的 值 增加 1。 从 这 里 可 以 看 到 ， 当 一 个 线程 开始 等 待 GIL 
时 ， 其 ownea 就 会 被 增加 1。 显 然 我 们 可 以 猜测 ， 当 一 个 线程 最 终 释放 GIL 时 ， 一 定 会 将 
fython 尖 权 前 新 一 一 深度 并 莫 动 秋 语言 散心 基 术 
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GIL 的 owned 减 1， 这 样 当 所 有 需要 GIL 的 线程 都 最 终 释 放 了 GHL 之 后 ，owned 会 再 次 变 
为 -1， 意 味 着 GIL 再 次 变 为 可 用 。 


为 了 清晰 地 展示 这 一 点 ， 我 们 现在 就 来 看 看 PyThread_aqguire_lock 的 道 运算 ， 
PyThread_release_lock 每 一 个 将 从 运行 转 态 转 为 等 待 状态 的 线程 都 会 在 被 挂 起 之 前 调 
总 以 秋 GL 的 占有 。 





最 终 , 一 个 线程 在 释放 GIL 时 , 会 通过 setBvent 通知 所 有 在 等 待 GIL 的 hevent 这 个 
Event 内 核对 象 的 线程 ， 结 合 前 面 的 分 析 ， 如 果 这 时 候 有 线程 在 等 待 GIL 的 hevent， 那 么 
将 被 操作 系统 唤醒 。 这 就 是 我 们 在 前 面 介绍 的 Python 将 线程 调度 的 第 二 个 难题 委托 给 操 
作 系 统 来 实现 的 机 制 。 

到 了 这 时 ， 调 用 pybval_rnitThread 的 线程 (也 就 是 Python 主线 程 ) 已 经 成 功 获得 
了 GIL, 最 后 会 调用 pyThread_get_thread_ident (), 通过 Win32 的 API: GetCurrent- 
ThreadId， 获 得 当前 Python 主线 程 的 这 ， 并 将 其 赋 给 main_thread，main_thread 是 一 
个 静态 全 局 变量 ， 专 职 存储 Python 主线 程 的 线程 4， 用 以 判断 一 个 线程 是 否 是 Python 主 
线程 。 

最 后 ， 我 们 在 图 15-4 4 中 输出 问 个 pyEval_InitThread 的 函数 调用 关系 。 


下 Pyrweod alocam lack 
5) AllocNonRecursiveMutex 


_9 InitializeNonRecursiveMutex 
5 PyThread_acquire_lock 
-ai EnterNonRecursiveMutex 


图 - 15-4 ”PyEval_InitThreads 中 的 函数 调用 关系 
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15.3.2 ”创建 线程 


15.3.2.1 ” 子 线 程 的 诞生 


在 完成 了 多 线程 环境 的 初始 化 之 后 ，Python 会 开始 创建 底层 平台 的 原生 thread， 以 
thread1.py 为 例 ， 这 个 原生 thread 将 执行 threaaProc 所 定义 的 操作 。 从 现在 开始 ， 为 了 
描述 的 清晰 性 ,我 们 将 Python 主线 程 ,也 就 是 调用 thread_PyThread_start_new_threaad 
创建 新 的 线程 的 线程 称 为 主线 程 , 而 将 与 threadproc 对 应 的 原生 thread 称 之 为 子 线程。 
现在 我 们 来 看 看 一 个 子 线程 是 如 何 被 创建 的 ( 见 代 码 清单 15-2)。 
代码 清单 15-2 
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主线 程 通过 调用 PyThread_start_new_threaa 完成 创建 子 线程 的 工作 。 为 了 清晰 地 
理解 pyThread_start_new_thread 的 工作 ， 我 们 需要 特别 注意 该 函数 的 参数 ,从 thread_ 
PyThread_start_new_thread 中 可 以 看 到 ， 这 里 的 func 实际 上 是 沙 数 t_bootstrap, 
而 arg 则 是 在 thread_PyThread_start_new_thread 中 创建 的 bootstate 结构 体 boot。 
在 boot 中 ， 保 存 着 Python 程序 (thread1.py〉 中 所 定义 的 线程 的 信息 . 

PyThread_start_new_thread 首先 会 将 func 和 arg 都 打包 到 一 个 类 型 为 callobj 
的 结构 体 obj 中 ， 我 们 来 看 看 这 个 obj。 





图 15:5 ds threadl .py 的 callobj 对 象 的 示意 图 。 


Ons 






he void t_bootstrap(vowd wboot raw) 
struct bootstate “boot= (troct bootstate 可 bootk raw; 









PyQbject es 

trtate = PyThreadS tate_New(boot->interp), 
PyEva) Acquire Thread(tsiate); 

res= PyEval_CallObjectWithE eywordt(boot->func, 
boot->args, boot->keyw), 







图 15-5 thread1.py 对 应 的 callobj 对 象 的 示意 图 
值得 注意 的 是 ，obj .aone 是 一 个 Win32 下 的 Semaphore 内 核对 象 ， 这 个 特殊 的 
对 象 的 用 途 我 们 马上 就 会 看 到 ， 我 们 创建 线程 的 工作 需要 func 和 arg， 但 是 Win32 下 创 
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建 线程 的 API 只 允许 用 户 指定 一 个 自 定义 的 参数 ， 这 就 是 需要 用 obj 来 打 包 的 原因 。 

完成 打包 之 后 , 调用 Win32 下 创建 thread 的 API: _beginthreaa 来 完成 线程 的 创建 。 
奇怪 的 是 , 我 们 期 望 的 线程 过 程 应 该 是 thread1l.py 中 定义 的 那个 chreadpoc 呀 ,而 这 里 指 
定 的 线程 过 程 却 是 一 个 相当 面 生 的 bootstrape 实际 上 ， 在 bootstrap 中 ， 会 最 终 调 用 
threadl.py 中 定义 的 threadProc。 

但 是 ， 这 里 有 一 个 至 关 重 要 的 转折 ， 还 记得 我 们 现在 在 哪里 吗 ? 没 错 ， 我 们 现在 是 沿 
者 主线 程 的 执行 路 径 在 前 析 ， 而 对 bootstrap 的 调用 并 不 是 在 主线 程 中 发 生 的 ， 而 是 在 
通过 _beginthread 所 创建 的 子 线程 中 发 生 的 。 从 这 里 开始 ， 我 们 需要 特别 注意 代码 的 执 
行 是 在 哪个 线程 中 执行 的 ， 这 对 于 理解 Python 的 多 线程 机 制 相当 重要 。 

好 了 ， 花 开 两 人 条， 各 表 一 枝 。 我 们 继续 沿 着 主线 程 的 执行 路 径 前 进 。 如 果 不 出 什么 意 
外 ，_beginthread 将 最 终 成 功 地 创建 Win32 下 的 原生 线程 ， 并 顺利 返回 。 在 返回 之 后 ， 
主线 程 开 始 将 自己 挂 起 ， 等 待 obj .done。 我 们 前 面 看 到 ， 这 是 一 个 Win32 的 Semaphore 
内 核对 象 。 由 于 obj 已 经 作为 参数 传递 给 了 子 线程 ， 所 以 我 们 狂想 ， 子 线程 会 设置 这 个 
Semaphore， 并 最 终 唤 醒 主线 程 ， 

现在 我 们 来 理 清 一 下 Python 当前 的 状态 。Python 当前 实际 上 由 两 个 Win32 下 的 原生 
thread 构成 ， 一 个 是 执行 python 程序 (pythoniexe〉 时 操作 系统 创建 的 主线 程 ， 另 一 个 是 
我 们 通过 thread1.py 创建 的 子 线程 。 主 线程 在 执行 pygval_tnitmhreaa 的 过 程 中 ， 获 得 
了 GIL， 但 是 目前 已 经 被 挂 起 ， 这 是 为 了 等 待 子 线程 中 控制 着 的 obj .aone。 子 线程 的 线 
程 过 程 是 boocstrap， 不 过 我 们 刚才 已 经 猜测 了 ， 从 bootstras 出 发 ， 最 终 将 在 Python 
解释 器 中 执行 python1.py 中 定义 的 theadproc。 但 是 ， 我 们 知道 ， 子 线程 为 了 访问 Python 
解释 器 ， 必 须 首先 获得 GIL， 这 是 Python 世界 的 游戏 规则 ， 谁 也 不 能 例外 。 所 以 ， 为 了 避 
免 死 锁 ， 子 线程 一 定 会 在 申请 GIL 之 前 通知 obj .done。 

现在 ， 是 时 候 开 始 进入 子 线程 ， 也 就 是 那个 bootstrap 函数 了 ， 看 看 它 究竟 什 么 时 
开始 通知 obj .dones 
{thread nt,h] 
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在 bootstrap 中 ， 子 线程 完成 了 三 个 动作 : 
> ”获得 线程 idi 
> 通知 obj->dons 内 核对 象 ; 
> 调用 t_bootstrap; 


在 这 里 我 们 看 到 ， 子 线程 在 申请 GIL 之 前 确实 通知 了 前 面 提 到 的 obj .done 内 核对 象 
以 唤醒 主线 程 。 那么 ，Python 为 什么 需要 让 主线 程 等 待 子 线程 的 通知 呢 ， 在 这 里 一 切 都 明 
了 了 。 原 来 ， 主 线程 所 调用 的 pyThread_start_new_thread 需要 返回 所 创建 的 子 线程 的 
线程 1a， 然 而 子 线程 的 线程 id 只 有 在 子 线程 被 激活 后 才能 在 子 线程 中 获取 ， 因 此 主线 程 
等 的 就 是 这 个 子 线程 ia， 一 旦 子 线程 设置 了 obj->id， 就 会 设法 唤醒 主线 程 。 

从 这 里 开始 ， 主 线程 和 子 线程 开始 分 道 扬 镰 ， 主 线程 在 返回 子 线程 1a 之 后 ， 会 继续 
执行 后 续 的 字 节 码 ， 因 为 我 们 知道 ， 这 时 候 ， 主 线程 手 里 握 着 GIL。 而 子 线程 则 将 进入 
t_hootstrap, 并 最 终 进 入 等 待 GIL 的 状态 。 


1e.c] 
DY 
AL 







We Pah) 
a 


子 线程 从 这 里 开始 了 与 主线 程 对 GIL 的 竞争 。 在 t_bootstrap 中 ， 所 进行 的 第 一 个 
动作 一 一 pyEval_AcquireThread 一 一 就 是 申请 GIL, 当 PyEval_AcquireThread 结束 之 
后 ， 子 线程 也 就 获得 了 GIL， 并 且 做 好 了 一 切 执行 的 准备 。 接 下 来 子 线程 通过 PyBval_ 
callobjectwithkeyworas， 将 最 终 调用 我 们 已 经 非常 熟悉 的 pyEval_EvalFramegx， 也 
就 是 Python 的 字 节 码 执行 引擎 。 传递 进 pyEval_callobjectWwithKeywords 的 boot->fune 
是 一 个 PyFunctionObject 对 和 象 ， 正 是 由 eradl.py 中 定义 的 threadProc 编译 后 的 结果 。 

在 PyEval_CallObjectWithKeywords 结束 之 后 ， 子 线程 将 释放 GIL， 并 完成 销毁 线 
程 的 所 有 扫尾 工作 ， 到 了 这 里 ， 子 线程 就 结束 了 。 

从 t_bootstrap 的 代码 看 上 去 ， 似乎 子 线程 会 一 直 执 行 ， 直到 子 线程 的 所 有 计算 都 
完成 ， 才 会 通过 pyrhreadstate_beletecurrent 释放 GIL。 如 此 一 来 ， 那 主线 程 岂 非 一 
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直 都 会 处 于 等 待 GIL 的 状态 ?如 果真 是 这 样 , 那 Python 显然 就 不 可 能 支持 多 线程 机 制 了 。 
实际 上 在 PyBval_EvalFrameEx 中 ,. 图 15-2 中 显示 的 Python 内 部 维护 的 那个 模拟 时 钟 中 
断 会 不 断 地 激活 线程 的 调度 机 制 ， 在 子 线程 和 主线 程 之 间 不 断 地 进行 切换 ， 从 而 真正 实现 
多 线程 机 制 。 当 然 ， 这 一 点 我 们 将 在 后 面 详细 剖析 。 现在 我 们 感 兴趣 的 是 子 线程 在 
PyEval_AcquireThreade 中 到 底 做 了 什么 。 





到 这 里 ， 了 解 了 pygval_Acquirerhread, 似乎 创建 线程 的 机 制 都 清晰 了 。 但 实际 上 ， 
有 一 个 非常 重要 的 机 制 一 -线程 状态 保护 机 制 一 -隐藏 在 了 一 个 毫 不 起 眼 的 地 方 ; 
pyThreadState_New。 这 个 机 制 对 于 理解 Python 中 线程 的 创建 和 维护 是 非常 关键 的 。 


15.3.2.2 ”线程 状态 保护 机 制 


要 剖析 线程 状态 的 保护 机 制 ， 我 们 首先 需要 回顾 一 下 线程 状态 。 在 Python 中 ， 每 一 
个 Python 线程 都 会 有 一 个 线程 状态 对 象 与 之 关联 ， 在 线程 状态 对 象 中 ， 记 录 了 每 一 个 线 
程 所 独 有 的 一 些 信 息 。 实 际 上 ， 在 剖析 Python 的 初始 化 过 程 时 ， 我 们 曾经 见 过 这 个 对 象 。 
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每 一 个 线程 对 应 的 线程 状态 对 象 都 保存 着 这 个 线程 当前 的 byprameobject 对 象 ， 线 
程 的 id 这 样 一 些 信息 。 有 时 候 , 线程 是 需要 访问 这 些 信息 的 。 比 如 考虑 一 个 最 简单 的 情形 ， 
在 某 种 情 帝 下, 每 个 线程 都 需要 访问 线程 状态 对 象 中 所 保存 的 threao_ia 信 息 ,显然 , 线 
程 A 获得 的 应 该 是 a 的 thread_id， 线 程 B 亦 然 。 倘 车 线程 A 获得 的 是 的 thread_id， 
那 就 坏 菜 了 。 这 就 意味 着 Python 内 部 必须 有 一 套 机 制 ， 这 套 机 制 与 操作 系统 管理 进程 的 
机 制 非常 类 似 。 我们 知道 ， 在 操作 系统 从 进程 A 切换 到 进程 时 ， 首 先 会 保存 进程 的 上 
下 文 环境 ， 再 进行 切换 ;， 当 从 进程 上 切换 回 进程 A 时 ， 又 会 恢复 进程 A 的 上 下 文 环境 ， 这 
样 就 保证 了 进程 & 始终 是 在 属于 自己 的 上 下 文 环境 中 运行 ， 


这 里 的 线程 状态 对 象 就 等 同 于 进程 的 上 下 文 ，Python 同样 会 有 一 套 存储 、 恢 复线 程 状 
态 对 象 的 机 制 。 同 时 ,在 Python 内 部 ,维护 着 一 个 全 局 变量 ; pyThreadState* _pPymhread- 
state_cCurrent。 当前 活动 线程 所 对 应 的 线程 状态 对 象 就 保存 在 这 个 变量 里 ， 当 Python 
调度 线程 时 ， 会 将 被 激活 的 线程 所 对 应 的 线程 状态 对 象 赋 给 _PyThreadState_CurrenE， 
使 其 始终 保存 着 活动 线程 的 状态 对 象 。 

这 就 引出 了 这 样 的 一 个 问题 : Python 如 何在 调度 进程 时 ， 获 得 被 激活 线程 对 应 的 状态 
对 象 ? Python 内 部 会 通过 一 个 单 向 链表 来 管理 所 有 的 Python 线程 的 状态 对 象 ， 当 需要 寻 
找 一 个 线程 对 应 的 状态 对 象 时 ， 就 遍历 这 个 链表 ， 搜 索 其 对 应 的 状态 对 象 。 在 此 后 的 描述 
中 ， 我 们 将 这 个 链表 称 为 “状态 对 象 链表 ”。 





图 15-6 展示 了 在 运行 时 这 个 状态 对 象 链表 的 示意 图 。 

在 Python 中 ， 对 于 这 个 状态 对 象 链表 的 访问 ， 不 必 在 GIL 的 保护 下 进行 。 因 为 对 于 
这 个 状态 对 象 链表 ，Python 会 创建 一 个 独立 的 锁 ， 专 职 对 状态 对 象 链表 进行 保护 。 这 个 锁 
的 创建 是 在 Python 进行 初始 化 的 时 候 完 成 的 。 
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Static struct key “keyhead 





PyThread_create_key 将 创建 一 个 新 的 key。 注意, 这 里 的 key 都 是 一 个 整数 , 而且， 
当 PyThread_create_key 第 一 次 被 调用 时 (在 _pyGtLstate_tnit 中 的 调用 正 是 第 一 次 
调用 )， 会 通过 PyThread_allcate_lock 创建 一 个 keymutex。 根据 我 们 前 面 的 分 析 ， 这 个 
keymutex 实际 上 和 GIL 一样 都 是 一 个 PNRMUTEX 结构 体 ， 而 在 这 个 结构 体 中 ， 维护 着 一 
个 Win32 下 的 Event 内 核对 象 ,这 个 keymutex 的 功能 就 是 用 来 互 斥 对 状态 对 象 链表 的 访问 。 
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在 _PyGIbState_Init 中 ,创建 的 新 key 被 Python 维护 的 全 局 变量 autoTLSkey 接收 ， 
其 中 的 TLS 是 Thread Local Store 的 缩写 ， 这 个 autorLskey 将 用 作 Python 保存 所 有 线程 
的 状态 对 象 的 一 个 参数 ， 即 是 图 15-6 中 的 key 值 。 也 就 是 说 ， 状 态 对 象 列表 中 所 有 key 
结构 体 中 的 key 值 都 会 是 autoTbskey。 哎 ， 那 位 看 官 说 了 ,你 看 pyThread_creatse_key 
返回 的 是 nkeys 的 递增 后 的 值 啊 ， 就 是 说 每 create 一 次 ， 得 到 的 结果 都 是 不 同 的 ， 怎 么 
能 说 所 有 的 key 都 是 一 样 的 呢 ? 事实 上 , 在 琅 个 Python 的 源码 中 , pyrhread_create_key 
只 在 _PyGILState_Init 中 被 调用 了 ,而 这 个 _pyGTLstate_Init 只 会 在 Python 运行 时 环 
境 初 始 化 时 调用 一 次 。 

那么 如 何 区 分 哪个 线程 对 应 哪个 状态 对 象 呢 ， 别 忘 了 ， 我 们 还 有 线程 i6 呢 。 图 15-6 
中 的 ia 存储 的 正 是 各 个 线程 的 ia， 根 据 这 个 ia， 显然 可 以 区 分 不 同 的 线程 了 。 


那么 图 15-6 中 的 key 看 上 去 就 有 点 多 此 一 举 了 ， 实 际 上 ， 图 15-6 中 所 示 的 链表 结构 
并 非 是 纯 的 状态 对 象 链表 ， 当 在 一 个 key 结构 体 的 value 域 存储 的 不 是 线程 的 状态 对 象 ， 
而 是 与 线程 相关 的 其 他 对 象 时 , 这 个 key 值 就 有 意义 了 。 假如 我 们 将 一 种 状态 对 象 设 为 $， 
而 另 一 种 对 象 设 为 o, 在 图 15-6 所 示 的 链表 中 ,存在 着 两 个 与 某 个 线程 A 相关 的 key 结构 
体 。 显然， 对 于 这 两 个 key 结构 体 ，ia 域 是 完全 一 致 的 ， 那 么 当 我 们 需要 从 这 个 链表 中 
取出 对 象 o, 而 并 非 s 时 , 该 用 什么 来 区 分 和 8 了 呢 ? 正 是 这 个 key 值 。 所 以 实际 上 在 Python 
中 , 与 每 个 线程 相关 的 对 象 可 能 有 多 种 ， 而 每 一 种 对 象 都 会 对 应 一 个 key 值 ， 这 个 key 值 
将 会 被 所 有 的 线程 在 存储 这 种 对 象 时 共享 。 对 于 我 们 这 里 关注 的 线程 状态 对 象 ， 其 key 值 
就 是 aucerrskey。 同 样 ， 由 于 我 们 这 里 仅仅 关注 Python 的 线程 机 制 ， 所 以 我 们 在 后 面 的 
描述 中 还 是 将 图 15-6 中 的 链表 称 为 线程 状态 对 象 链表 。 

Python 提供 了 一 些 列 操作 状态 对 象 链表 的 接口 ， 其 中 核心 是 Fina_key， 见 代码 清单 
15-3。 
代码 清单 15-3 


pe 






es > 
sh] < [a + 
Ey 【 pe dt se 
= -i Eh \ 2 ena 
一 让 全 
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虽然 这 个 和 核心 函数 的 名 字 叫 Eind_key， 然 而 我 们 可 以 看 到 ， 它 的 作用 并 不 仅仅 是 搜 
索 , 而 且 还 包含 了 创建 的 动作 。 在 代码 清单 15-3 的 [2] 处 , fina_key 会 遍历 状态 对 象 列表 ， 
搜索 key 和 ia 都 匹配 的 key 结构 体 ， 如 果 搜 索 成 功 ， 则 直接 返回 ， 而 当 搜 索 失败 时 ， 
和 value, 最 后 将 其 插入 到 状态 对 象 列表 的 头 部 。 

在 代码 清单 15-3 的 [1] 和 [4] 处 我 们 看 到 了 Python 确实 通过 在 _PyGILStace_Tnitc 中 创 
建 的 keymutex 来 互 斥 对 状态 对 象 列表 的 访问 。 

在 了 解 了 这 个 核心 函数 之 后 ，Python 为 状态 对 象 列表 所 提供 的 接口 就 显得 非常 清晰 了 。 
a aa 删除 和 查询 操作 。 





Fython 源 开 友 症 并 司 厅 罕 动 下 这 部 胡 心 花 尺 
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15.3.2.3 从 GIL 到 字 节 码 解 释 器 
”现在 ， 回 过 头 来 看 一 看 刚才 提 到 的 pyThreadstate_New: 





了 于 线程 在 创建 了 自身 的 线程 状态 对 象 后， 会 通过 _PyGILState_NoteThreadstate 将 
这 个 对 象 放 入 到 线程 状态 对 象 链表 中 去 。 


这 里 有 一 个 需要 特别 注意 的 地 方 ， 即 当前 活动 的 Python 线程 不 一 定 是 获得 了 GIL 的 
线程 。 正 如 我 们 在 这 里 所 展示 的 ， 在 thread1.py 中 ， 主 线程 现在 是 获得 了 'GIL 的， 但 是 子 
线程 到 现在 还 没有 申请 GIL， 自 然 也 不 会 将 自身 挂 起 。 由 于 主线 程 和 子 线程 都 是 Win32 的 
原生 线程 ， 所 以 操作 系统 可 能 在 主线 程 和 子 线程 之 间 切 换 。 我 们 在 这 里 要 着 重 指出 操作 系 
统 级 的 线程 调度 和 Python 级 的 线程 调度 是 不 同 的 。Python 级 的 线程 调度 一 定 意味 着 GIL 
拥有 权 的 易手 ， 而 操作 系统 级 的 线程 调度 并 不 一 定 意味 着 GIL 的 易手 ， 当 所 有 的 线程 都 完 
成 了 初始 化 动作 之 后 ， 操 作 系统 的 线程 调度 和 Python 的 线程 调度 才 会 同一 。 那 时 ，Python 
的 线程 调度 会 迫使 当前 活动 线程 释放 GIL， 而 这 一 操作 会 触发 GIL 中 维护 的 Event 内 核对 
象 ， 这 个 触发 又 进而 触发 操作 系统 的 线程 调度 。 而 在 线程 的 初始 化 完成 之 前 ， 在 Python 
线程 调度 和 操作 系统 线程 调度 之 间 并 没有 这 样 的 因果 关系 ,图 15-7 中 显示 了 GIL 在 Python 
级 线程 调度 与 操作 系统 级 线程 调度 之 间 所 起 的 桥架 作用 。 





图 15-7 Python 级 的 线程 调度 与 操作 系统 级 的 线程 调度 


很 显然 ， 对 于 这 个 例子 ， 子 线程 还 没有 获得 GIL。 所 以 在 Pythreadstate_New 之 后 ， 
子 线程 开始 争夺 话语 权 了 。 
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前 面 我 们 已 经 草 析 过 PyEval_AcquireThread 的 代码 ， 在 ByEval_AcquireThread 
中 ， 子 线程 进行 了 最 后 的 冲刺 , 它 要 生存 ， 要 执行 ， 于 是 它 并 始 通过 PyThread _ acquire_ 
lock 争取 GIL。 到 了 这 一 步 , 子 线程 将 自己 挂 起 , 操作 系统 的 线程 调度 机 制 再 也 不 能 靠 自 
身 的 力量 将 其 唤醒 ， 只 有 等 待 Python 的 线程 调度 机 制 强 迫 主线 程 放 弃 GIL 后 ， 子 线程 才 
会 被 唤醒 ; 而 子 线程 被 黎 醒 之 后 ， 主 线程 却 叉 陷入 了 昔 苦 地 等 竺 中， 同样 苦 著 地 守望 着 
Python 强迫 子 线程 放弃 GIL 的 那 一 刻 。 


当 子 线程 被 Python 的 线程 调度 机 制 唤醒 之 后 ， 它 所 作 的 第 一 件 事 就 是 通过 
pyThreadState_Swap 将 Python 维护 的 当前 线程 状态 对 象 设置 为 其 自 身 的 状态 对 象 ， 一 如 
操作 系统 的 进程 上 下 文 环 境 恢 复 一 样 。 


现在 我 们 的 子 线程 开始 等 待 GIL， 但 是 注意 ， 线 程 的 初始 化 还 没有 真正 完成 ， 因 为 子 
线程 还 没有 顺利 进入 字 节 码 解释 器 。 当 Python 线程 调度 将 子 线程 唤醒 之 后 ， 子 线程 将 回 
到 t_bootstrap 中 ,并 进入 pyEBval_CallobjectWithKeyworasy 从 这 里 一 直 往 前 ， 最 终 
将 调用 bygval_EwalgrameEx， 进 入 解释 器 。 到 了 那个 时 候 ， 子 线程 和 主线 程 一 样 ， 就 完 
全 被 Python 线程 调度 机 制 所 控制 了 。 

图 15-8 展示 了 从 主线 程 开始 创建 子 线程 ， 到 子 线程 进入 Python 解释 器 的 所 有 函数 调 
用 。 

需要 注意 的 是 , PyThread_start_new_thread 是 在 主线 程 中 执行 的 ,而 从 bootstrap 
开始 ， 则 是 在 子 线程 中 执行 的 。 其 中 涉及 线程 销毁 的 动作 ， 如 PyThreadstate_ 
DeleteCurrent 等 ， 将 在 后 续 的 部 分 剖析 ， 

到 了 这 里 ,读者 可 能 有 些 疑 惑 了 ,我 们 花费 了 大 量 篇 幅 章 析 的 线程 状态 对 象 链表 似乎 
没有 什么 用 啊 。 其 实 不 然 ， 试 想 一 下 ， 当 线程 调度 发 生 时 ， 在 Python 一 级 ， 需 要 通过 之 
前 剖析 过 的 pyTrheadstate_ Swap 函数 切换 当前 的 线程 状态 对 象 ， 这 时 候 就 需要 根据 线程 
id 从 线程 状态 对 象 链表 中 获取 线程 对 象 了 。 事 实 上 ， 在 Python 内 部 的 许多 API 中 ， 比 如 
pyGILState_Ensure 等 等 中 ， 都 会 涉及 这 个 链表 ， 这 些 API 在 G 与 Python 交互 时 可 能 被 
大 量 调 用 ， 有 兴趣 的 读者 可 以 自行 深入 探索 一 下 。 


Python 六 汉 出 匠 一 一 深度 熔 匡 动态 这 这 秦 心 投下 
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图 158 a tod 中 的 执行 序列 
15.4 Python 线程 的 调度 


15.4.1 ”标准 调度 


当主 线程 和 子 线程 都 进入 了 Python 解释 器 之 后 ， Python 的 线程 之 间 的 切换 就 完全 由 
Python 的 线程 调度 机 制 掌 控 。Python 的 线程 调度 机 制 是 内 建 在 Python 的 解释 器 核心 
PyBval_BvalFramsgx 中 的 。 在 分 析 Python 字 节 码 解释 器 的 框架 时 ， 我 们 曾 给 出 过 一 个 
PyEval_BvalFramegx 的 框架 结构 ， 但 是 在 那里 ， 并 没有 给 出 线程 调度 机 制 的 实现 ， 下 面 
列 出 的 是 加 入 了 线程 调度 机 制 的 PyBval_EvalsrameEx 的 框架 结构 ( 见 代码 清单 15-4)。 


代码 清单 15-4 
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其 中 _Py_Ticker 就 是 Python 内 部 通过 软件 模拟 实现 的 时 钟 中 断 机 制 ， 而 _Py_ 
CheckInterval 保存 着 Python 设 定 的 指令 数 ， 这 也 就 是 通过 svs.getcheckincerval () 
得 到 的 值 。 在 初始 化 时 _Py_Ticker 和 _PY_checkTnterval 是 一 样 的 ， 都 是 100。 





PyEval_Evalframegx 每 执行 一 条 字 节 码 指令 ，_Py_Ticker 就 将 减少 1; 当 执 行 了 
-Py_Checkinterval 条 指令 之 后 ，_Py_Ticker 将 减少 到 0, 这 就 将 进入 线程 调度 ,注意 ， 
主线 程 和 子 线程 都 将 调用 PyEval_EvalFrameEx， 所 以 这 里 的 描述 可 能 会 引起 混乱 ， 为 了 
保证 读者 清晰 地 了 解 线程 调度 时 所 发 生 的 一 切 ， 我 们 先 来 回忆 一 下 thread1.py 现在 所 处 的 
情景 。 

主线 程 获得 了 GIL， 并 且 正 在 执行 pysval_BvalFrameEx 函数 的 代码 ,这 时 子 线程 在 
5_bootstrap 中 调用 pybval_Acquirerhread。 通 过 调用 Pyrhrad_acquire_loek 申请 
GIL， 但 是 由 于 GIL 被 主线 程 占有 ， 所 以 子 线程 被 挂 起 。 

现在 整个 Python 的 进程 中 ， 只 有 一 个 活动 的 线程 ， 主 线程 。 主 线程 不 断 执行 字 节 码 ， 
_Py_Ticker 的 值 不 断 减 少 ， hy_Ticker 的 值 减少 到 0 时 ， 主线 程 在 代码 清单 15-4 的 
[1] 处 首先 将 维护 当前 线程 状态 对 象 的 _pyrhreadstate_current 设置 为 NULL, 然后 释放 
掉 GIL。 注 意 啦 ， 注 意 啦 ， 转 折 点 到 了 :这 时 ， 由 于 等 待 GIL 而 被 挂 起 的 子 
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统 的 线程 调度 机 制 唤 醒 ， 从 而 最 终 进 入 PyEval_EvalFrameEx。 对 于 主线 程 ， 注 意 ， 朋 然 
这 时 它 已 经 失去 了 GIL， 但 是 由 于 它 没有 被 挂 起 ， 所 以 对 于 操作 系统 的 线程 调度 机 制 ， 它 
是 可 以 被 再 次 切换 为 活动 线程 的 ， 


当 操 作 系 统 的 调度 机 制 将 主线 程 切换 为 活动 线程 之 后 ， 主 线程 将 执行 代码 清单 15-4 
的 [2]， 在 pyThread_acquire_lock 中 ， 主 线程 申请 GIL， 由 于 被 子 线程 占有 ， 主 线程 将 
自身 挂 起 。 从 这 时 开始 ， 操 作 系统 的 线程 调度 不 能 再 将 主线 程 切 换 为 活动 进行 ， 除 非 等 到 
子 线程 释放 GIL 之 后 。 而 子 线程 进入 pyEval_EVa1lFrameEx 之 后 ， 开始 如 之 前 主线 程 一 
般 的 行为 ， 在 执行 了 _Py_checkInterval 条 指令 之 后 ， 子 线程 将 执行 代码 [1]， 释 放 GIL， 
由 此 唤醒 主线 程 。 而 子 线程 在 继续 执行 [2] 时 ， 又 将 因 等 待 GIL 将 自身 挂 起 ， 如 此 反复 ， 
直至 永恒 ， 从 而 完整 地 在 Python 中 实现 了 对 多 线程 机 制 的 支持 。 


有 一 点 需要 特别 注意 ， 实 际 上 ，Python 并 非 在 执行 了 _py_checkInterval 条 指令 之 
后 开始 线程 调度 。 从 PyEval_EvalprameEx 的 代码 框架 以 及 本 书 第 2 部 分 对 Python 虚拟 
机 的 剖析 可 以 看 到 ， 很 多 字 节 码 执行 之 后 都 会 通过 goto 转移 到 fast_next_opoode 处 继 
续 执 行 ， 这 时 是 不 会 更 新 _ey_ricker 的 值 的 ;而 有 的 字 节 码 在 执行 之 后 则 会 转移 到 最 外 
层 的 for 循环 ， 这 时 是 会 更 新 _py_micker 的 。Python 在 这 一 方面 有 一 种 柔性 ， 并 非 立 下 
了 军令 状 。 


下 面 我 们 通过 修改 Python 源 代 码 来 观察 Python 虚拟 机 进行 线程 调度 的 情形 .在 ceval.c 
中 , 我 们 声明 一 个 全 局 的 整形 变量 counter, 用 于 记录 实际 执行 的 字 节 码 指令 ,在 pyEval_ 
EvalFrameEx 的 Qispatch_opcode 标记 位 置 之 后 ， 添 加 代码 : +*+counter。 注意 ， 由 于 
Python 虚拟 机 在 执行 一 些 字 节 码 , 尤其 是 涉及 条 件 判 断 的 字 节 码 时 ,会 发 生 直 接 跳跃 的 动 
作 ， 所 以 这 里 counter 记录 的 也 并 非 走 实 的 字 节 码 数量 ， 只 是 最 接近 真实 字 节 码 数 量 的 一 
个 值 。 在 PyEval_EvalFrameEx 的 判断 “_py_Ticker < 0” 成 立 之 后 ， 和 输出 counter 的 
值 , 并 将 counter 重新 归 0。 为 了 观察 标准 调度 ,我 们 先 将 threadl.py 中 的 两 条 cime.sleep 
语句 注释 掉 ，thread1.py 的 运行 结果 如 图 15-9 所 示 。 

可 以 看 到 ， 在 标准 调度 下 ， 在 两 个 切换 线程 的 输出 语句 之 间 ， 只 有 一 个 线程 的 输出 结 
果 ， 要 么 是 主线 程 的 输出 结果 ， 要 么 是 子 线程 的 输出 结果 。 这 充分 说 明了 ， 标 准 调度 是 让 
一 个 线程 充分 执行 ， 直 到 激发 Python 的 模拟 时 钟 中 断 〈_pPy_micker < 0)， 另 一 个 线程 
才能 有 机 会 执行 。 同 时 ， 在 输出 结果 中 ， 我 们 发 现 每 次 发 生 线程 切换 时 ， 输 出 的 counter 
的 计数 结果 是 不 定 的 ， 这 与 前 面 的 分 析 非 常 吻 合 。 


Python 源码 济 匠 一 一 深 殿 次 匡 动 千 语 言 检 心 蓄 天 
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F\PythonB ook\Src\thread>python threadl.py 


Hello from main thread 2448 
Hello from main thread 2448 
PyEval EvalFrameEx : switch thread after 127 ym opcodes 


Hello from sub thread 3212 
Hello from sub thread 3212 


Hello from sub thread 3212 
PyEval EvalFrameEx : Switch thread after 125 vm opcodes 
Hello from main thread 2448 





图 15-9 标准 调度 下 的 线程 切换 


15.4.2 ”阻塞 调度 


标准 调度 是 在 Python 执行 完了 可 执行 的 指令 条 数 之 后 才 发 生 的 ， 但 是 在 实际 中 ， 
Python 需要 支持 另 一 种 触发 线程 调度 的 情形 ,我们 称 之 为 阻塞 调度 。 其 基本 思想 是 ， 在线 
程 A 通过 某 种 操作 ， 比 如 说 等 待 输入 ， 将 自身 阻塞 后 ，Python 应 该 将 等 待 GIL 的 线程 B 
唤醒 。 


考虑 我 们 的 threadl.py， 在 主线 程 和 子 线程 中 都 有 time.sleep(1) 的 调用 。 假如 子 线 
程 调 用 了 time .sleep(1), 那么 子 线程 将 释放 GIL, 挂 起 自 先 ， Python 哎 醒 主线 程 。 同 样 ， 
在 主线 程 中 调用 time.sleep(1)， 也 将 使 Python 唤醒 子 线程 。 这 展示 了 一 种 情形 ， 即 程 
序 有 时 候 希 望 将 自己 挂 起 。 


除了 这 种 线程 主动 放弃 GIL 的 情况 之 外 ,还 有 另 一 种 情形 ， 即 程序 不 得 不 挂 起 。 还 是 
考 嵌 我 们 的 thread1.py， 假 如 在 主线 程 的 thread.start_new. thread (threadProc, ()) 
之 后 我 们 调用 raw_input ()， 那 么 主线 程 必 须 等 待 用 户 的 输入 ， 这 时 ， 主 线程 也 不 得 不 释 
放 GIL， 将 自身 挂 起 。 


我 们 通过 研究 time.sleep{) 来 剖析 Python 是 如 何 实现 这 种 阻塞 调度 的 。 在 Python 
中 ，time module 在 timemodule.c 中 实现 ， 而 其 中 的 ST1eep 操作 由 time_sleep 函数 ， 进 
而 由 sloacsleep 函数 实现 。 
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实际 上 , Sleep 机 制 也 是 平台 相关 的 , 这 里 我 们 只 展示 了 Win32 平台 下 的 sleep 实现 。 
同时 ， 由 于 Win32 平台 下 的 sleep 实现 也 比较 复杂 ， 我 们 关注 的 焦点 并 不 是 timemodule 
的 实现 ， 而 是 阻塞 调度 机 制 是 如 何 实现 的 ， 所 以 我 们 只 列 出 了 子 线程 调用 sleep 时 涉及 的 
相关 代码 。 我 们 看 到 ，Python 实际 上 是 通过 调用 Win32 的 系统 API: sleep 来 实现 了 阻塞 
的 机 制 。 那么 在 调用 sleep 之 前 ， 子 线程 肯定 需要 将 GIL 释放 。 在 floatsleep 中 ， 我 们 
注意 到 在 调用 sleep 之 前 ,有 一 个 py_BEGIN_ALLOW_THREADS, 与 之 对 应 的 ,在 调用 sieep 
之 后 ， 还 有 一 个 Py_END_ALLOW_THREADS， 正 是 这 两 个 宏 完成 了 触发 Python 进行 线程 调 
度 的 工作 。 






在 py_BEGIN_ALLOW_THREADS 这 个 宏 定义 的 代码 中 , 子 线程 释放 了 GIL,， 这 将 唤醒 等 
待 GIL 的 主线 程 ;而 在 py_END_ALLOW_THREADS 宏 所 定义 的 代码 中 , 子 线程 重新 申请 GIL。 
注意 ， 在 子 线程 调用 了 Py_BEGIN_ALLOW_THREAD 之 后 ， 它 就 不 再 受 GIL 的 约束 。 从 这 时 
开始 ，Python 的 两 个 线程 都 可 能 被 操作 系统 的 线程 调度 机 制 选中 ， 直 到 子 线程 通过 
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Py_END_ALLOW_THREADS 申请 GE 为 止 , Python 又 恢复 为 只 能 有 一 个 线程 被 操作 系统 的 线 
程 调 度 机 制 选 中 。 


这 意味 着 Python 的 线程 在 某 种 情况 下 可 以 脱离 GIL 的 控制 ， 然 而 我 们 看 到 ， 在 
Py_BEGIN_ALLOW_THREAD 和 Py_END_ALLOW_THREADS 之 间 ， 子 线程 并 没有 调用 任何 
Python 的 CAPI， 只 是 调用 了 操作 系统 的 API， 这 不 会 导致 共享 资源 的 访问 冲突 ， 所 以 依 
然 是 线程 安全 的 。 开始 的 时 候 我 们 就 说 过 ,在 理论 上 ， Python 并 不 是 一 定 要 GIL 这 样 的 解 
释 器 级 的 互 斥 线程 的 机 制 ， 只 要 能 保护 共享 资源 即 可 ， 而 当前 Python 采用 的 GIL 只 是 多 
种 线程 互 斥 机 制 中 的 一 种 而 已 。 


同样 ， 对 于 raw_input 而 言 ， 其 最终 将 由 Py0S_Readline 实现 ， 我 们 最 终 也 会 在 
PYOS_Readline 中 发 现 Py_BEGIN_ALLOW_THREAD 和 py_END_ALLOW_THREADS 联 被 的 身 


影 。Python 正 是 通过 这 两 个 宏 实 现 了 阻塞 调度 机 制 。 


有 趣 的 是 ;在 线程 通过 阻塞 调度 切换 时 ，Python 内 部 的 那个 _py_Ticker 依然 会 被 保 
持 , 并 不 会 被 重 盾 为 100， 只 有 标准 调度 才 会 重 需 这 个 Python 的 模拟 时 钟 。 在 图 15-10 中 ， 
清晰 地 显示 了 这 一 结果 。 注 意 ， 这 时 需要 将 threadl1.py 中 的 两 条 time .sleep 语句 打开 ， 
以 便 激 发 阻塞 调度 。 


F\PythonBook\Src\thread>python threadl.by 


Hello from main thread 4012 

Hello from sub thread 4000 

PyEval EvalFrameEx ; Switch thread after 139 vm opcodes 
Hello ftom main thread 4012 

Hello from sub thread 4000 

Hello from sub thread 4000 


Hello from main thread 4012 

PyEval EvalFrameEx : switch thread after 137 vm opcodes 
Hello from main thread 4012 

Hello from sub thread 4000 





图 15-10 阻塞 调度 与 标准 调度 结合 下 的 线程 切换 


Python 闫 好 前 六 一 一 深 厦 森 匡 动态 语言 关心 共 厌 





15.5 “Python 子 线程 的 销毁 区 419 


从 图 15-10 中 我 们 看 到 阻塞 调度 确实 是 独立 于 标准 调度 另 一 种 线程 调度 机 制 。 而 阻塞 
调度 确实 没有 重 置 _pPy_Ticker， 否 则 Python 显示 出 来 的 值 决 不 会 是 137 这 样 小 的 值 了 。 
需要 注意 的 ， 图 15-10 和 图 15-9 中 的 输出 从 120 多 增长 到 了 130 多 ， 是 因为 图 15-9 对 应 
的 例子 中 我 们 只 使 用 了 标准 调度 ， 图 15-10 中 则 混合 使 用 了 标准 调度 和 阻塞 调度 ， 这 多 出 
来 的 10 几 条 正 是 Python 执行 ime .sleep() 时 所 消耗 的 指令 数 。 


15.5 “Python 子 线程 的 销毁 


在 线程 的 全 部 计算 完成 之 后 ，Python 将 销毁 线程 。 顺 要 注意 的 是 ，Python 主线 程 的 销 
毁 与 子 线程 的 销毁 是 不 同 的 ， 因 为 主线 程 的 销毁 动作 必须 要 销毁 Python 的 运行 时 环境 ， 
而 子 线程 的 销毁 则 不 需要 进行 这 些 动作 。 在 本 节 中 ， 我 们 只 削 析 Python 子 线程 的 销毁 过 
程 。 


通过 前 面 的 分 析 我 们 知道 ， 线 程 的 主体 框架 是 在 t_jbootstrap 中 的 : 














Python 首先 会 通过 pyThreadstate_clear 清理 当前 线程 所 对 应 的 线程 状态 对 象 。 所 
谓 清理 , 实际 上 比较 简单 ， 就 是 对 线程 状态 对 象 中 维护 的 东西 进行 引用 计数 的 维护 . 随后 ， 
Python 释放 GIL， 释 放 GIL 的 操作 是 在 pyrhreadstate_Deletecurrent 中 完成 的 。 
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在 PyThreadstate_Deletecurrent 中 ， 首先 会 删除 当前 的 线程 状态 对 象 ， 然后 通过 
pyEval_ReleaseLock 释 放 GIL。 

Python 在 函数 pyThreadState_DeleteCurrent 完成 了 绝 大 部 分 线程 的 销毁 动作 , 剩 
下 的 PyThread_exit_thread 是 一 个 平台 相关 的 操作 , 完成 各 个 平台 上 不 同 的 销 氏 原生 线 
程 的 工作 。 在 Win32 下 ， 实 际 上 就 是 调用 _enachreaad。 


15.6 Python 线程 的 用 户 级 互 斥 与 同步 


15.6.1 用 户 级 互 斥 与 同步 


我 们 知道 ，Python 的 线程 在 GIL 的 控制 之 下 ， 线 程 之 间 ， 对 整个 Python 解释 器 ， 对 
Python 提供 的 C API 的 访问 ， 都 是 互 斥 的 ， 这 可 以 看 作 是 Python 内 核 级 的 互 斥 机 制 。 但 
是 这 种 互 尺 是 我 们 不 能 控制 的 ， 我 们 还 需要 另 一 种 可 控 的 互 斥 机 制 一 用户 级 互 斥 。 内核 
级 通过 GIL 实现 的 互 斥 保护 了 内 核 的 共享 资 源 , 同样 , 用 户 级 互 斥 保护 了 用 户 程序 中 的 共 
享 资源 。 考 虑 下 面 的 例子 : 
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在 thread2.py 中 ， 有 一 个 主线 程 和 子 线程 之 间 共 享 的 变量 input。 这 个 input 是 用 户 
的 输入 ， 主 线程 接收 输入 ， 而 子 线程 打印 用 户 输入 ， 为 了 保证 子 线程 在 用 户 输 入 之 后 才 激 
活 打印 动作 ，thread2.py 使 用 了 Python 线程 机 制 提供 的 Lock 机 制 来 实现 同步 动作 ， 这 实 
际 上 也 可 以 视 为 线程 之 间 的 互 斥 。 


当主 线程 通过 lock.acgquire 获得 lock 之 后 , 将 独 享 对 input 的 访问 权利 。 子 线程 会 
因为 等 待 lock 而 将 自身 挂 起 ， 直 到 主线 程 释放 lock 之 后 才 会 被 Python 的 线程 调度 机 制 唤 
醒 ， 获 得 访问 input 的 权力 。 注 意 ， 这 里 主线 程 需要 使 用 sleep 使 自身 挂 起 ， 才 能 触发 
Python 的 线程 调度 ， 使 得 子 线程 获得 运行 的 机 会 。 而 这 时 主线 程 由 于 等 待 lock， 同样 会 将 
自身 挂 起 ， 不 能 再 访问 input。 于 是 ， 自 始 至 终 ， 每 一 个 线程 都 能 控制 自己 对 input 的 使 
用 ， 不 用 担心 别 的 线程 破坏 input 的 状态 。 这 种 机 制 给 了 用 户 控 制 线程 之 间 交 互 的 能 力 ， 
是 Python 中 实现 线程 互 斥 和 同步 的 核心 。 


在 本 节 中 , 我 们 将 详细 剖析 Python 中 Lock 机 制 的 实现 , 有 了 前 面 关于 Python 中 线程 
实现 的 基础 ， 你 会 发 现 ，Lock 机 制 的 实现 真 的 可 以 用 顺 其 自然 来 形容 。 在 进入 Lock 机 制 
的 实现 之 前 ， 我 们 先 来 看 看 thread2.py 的 输出 结果 ， 以 对 Lock 机 制 有 一 个 感性 的 认识 。 
如 图 15-11 所 示 。 


F\PythonBool\Sro\thread>python thread2.py 


rmain thread 1384 watt lock ... 
rmain thread 1384 getlock ... 

sub thread 3724 wait lock .,. 
Python is the best! 

main thread 1384 release lock ... 
sub thread 3724 get lock ... 

sub thread 3724 receive tnput : Python is the best! 
sub thread 3724 release lock ... 
sub thread 3724 wait lock ... 
main thread 1384 wait lock ... 
main thread 1384 getlock ... 


图 15-11 thread2.py 的 运行 结果 





15.6.2” Lock 对象 


在 thread2.py 中 ， 我 们 通过 thread.allocate{) 创 建 了 一 个 Lock 对 象 ， 所 以 我 们 对 
LoOck 对 象 的 谢 析 就 从 thead.allocate 所 对 应 的 C 函数 thread_ PyThread ailocate_ 
lock 开始 。 
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实际 上 ， 对 thread.allocate 的 调用 仅仅 通过 newlockobject 创建 了 一 个 


lockobject 对 象 ，Python 的 整个 用 户 级 线程 同步 机 制 就 在 这 个 对 象 的 基础 上 实现 。 







显然 ，16ckobjact 是 一 个 pyobjeeE 对象， 其 中 的 1ock_16ck 的 类 型 我 们 在 GIL 的 
身上 也 曾 见 过 。 在 newiockobject () 中 , 我 们 清晰 地 看 到 , lock_iock 也 是 由 pyThreaa_ 
allocate_lock 创建 的 ， 与 GIL 一样 ，1ock_lock 也 是 一 个 Win32 下 的 Event 内 核对 象 。 
这 就 意味 着 ， 在 Win32 平台 下 的 Python 实现 中 ， 其 用 户 级 线程 的 互 斥 与 间 步 机 制 大 通过 
Event 来 完成 的 。 我 们 来 看 一 看 Lock 对 象 所 提供 的 属性 集 。 






很 简单 , 实际 上 Lock 对 象 仅仅 提供 了 三 种 操作 : acquire、 release 和 判断 当前 Lock 
是 否 被 锁 的 10ckaed。 

一 个 Python 线程 在 内 核 级 需要 访问 Python 解释 器 之 前 ， 需 要 先 申请 GIL， 同 样 地 ， 
线程 在 用 户 级 需要 访问 共享 资源 之 前 也 需要 先 申 请 用 户 级 的 lock， 这 个 申请 动作 在 
lock.acquire 中 完成 ， 其 对 应 的 C 函数 为 lock_PpyThread_acgquire_1lock。 


Python 源 13 击 新 一 深度 蓉 美 动态 共计 此 心 龙 义 





tO 


15.7 ”高 级 线程 库 一 一 threading。 甸 423 





由 于 线程 需要 等 待 另 一 个 lock 资源 ， 为 了 避免 死 镇 ， 需 要 将 GIL 转交 给 其 他 的 等 竺 
GIL 的 Python 线程 ， 调 用 lock.acauire 的 线程 使 用 了 我 们 之 前 提 到 的 Py_BEGIN_ 
ALLOW_TEREADS 来 释放 GIL， 欣 本 其 他 线程 ， 然后 调用 pyrhread_acquire_lock 开始 学 
试 申请 用 户 级 lock。 在 获得 了 用 户 级 lock 之 后 ， 通 过 Py_BEBGLN_AELOW_THREADS 再 次 获 
得 内 核 级 lock 一 一 GIL。 


现在 ， 我 们 可 以 轻易 地 猜 出 lock 的 release wh lock_PyThread_release_1ock 完 
成 了 什么 操作 了 。 





15.7 高 级 线程 库 一 threading 


Python 中 的 thread moaule， 以 及 Lock 对 象 是 Python 提供 的 低级 的 线程 控制 工具 ， 
为 了 简化 多 线程 应 用 的 开发 , Python 在 thread 的 基础 上 构建 了 一 个 高 级 的 线程 控制 库 一 一 
trhreading。 在 这 一 节 中 ， 我 们 将 剖析 threaqing 的 具体 实现 。 在 剖析 threading 的 具 
体 实现 之 前 ， 我 们 先 来 看 看 threading 是 如 何 使 用 的 。 
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EZ 










其 执行 结果 如 图 15-12 所 示 。 


F\PythonBook\Src\thread> pythorn thread3.py 
sub thread : 1452 

main thread ; 2528 

sub thread : 1452 

main thread : 2528 

sub thread ; 1452 
main thread : 2528 
main thread : 2528 





图 15-12 thread3.py 的 运行 结果 


15.7.1 Threading Module 概述 


python 的 threading moaule 是 在 建立 在 thread mogule 基础 之 上 的 一 个 mmodile; 
在 threading module 中 ， 暴露 了 许多 thread module 中 的 属性 。 | 网 1 乱 们 在 thread3.py 
中 使 用 的 threading._get_ident 实际 上 就 是 thread.get_ident。 
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我 们 知道 通过 threading.Thread 创建 多 线程 ， 有 两 个 阶段 ， 第 一 阶段 是 调用 
threading.Thread.start ， 而 第 二 阶段 是 在 threading.Thread.start 中 调用 
threading.Thread.run。 当 处 于 第 一 阶段 时 ， 还 没有 调用 thread.start_new_ thread 
创建 原生 子 线程 ， 这 时 候 线 程 记录 在 _limbo 中 。 由 于 没有 创建 子 线程 ， 所 以 现在 没有 线 
程 ia， 记录 的 方式 为 _Iimbo [thread] =thread。 在 第 二 阶段 ， 已 经 成 功 地 调用 thread, 
start_rniew_thread 创 建 了 原生 子 线程 , 这 时 将 从 _1limbo 中 删除 子 线 程 , 而 将 子 线 程 记录 
到 _active 中 , 记录 的 方式 为 _active[thread_id] =thread。 可见 ,Python 这 两 个 aiet 
分 别 维护 了 已 经 创建 和 等 待 创建 的 子 线程 集合 .对 这 两 个 dict 的 访问 都 在 _active_limpo_ 
Lock 的 保护 之 下 进行 。 


在 threading module 中 ， 提供 本 列举 当前 所 有 子 线程 的 操作 : threading. 
enumerate。 这 个 操作 很 简单 ， 就 是 将 _active 和 _aimbo 中 维护 的 线程 集合 的 信息 输出 © 





15.7.2 ”Threading 的 线程 同步 工具 


在 thread module 中 ，Python 提供 了 用 户 级 的 线程 同步 工具 : Lock 对 象 。 而 在 
threading module 中 ，Python 提供 了 不 同 的 用 于 线程 同步 的 工具 ， 以 简化 Python 用 户 实 
现 多 线程 应 用 程序 。 这 些 threading 中 的 线程 同步 工具 实际 上 都 是 建立 在 thread 所 提供 
的 Lock 对 象 的 基础 上 的 。 


在 threading 中 ， 我 们 可 以 直接 创建 thread 中 的 Lock 对 象 ，threading 没有 做 任何 





撒 述 的 ,在 这 个 对 象 上 ， 我 们 可 以 进行 acquire、release 等 操作 。 在 threading 中 的 其 
他 线程 同步 工具 都 是 在 这 个 Lock 对 象 的 基础 上 ， 下 面 我 们 将 对 这 些 线程 同步 工具 做 一 个 
概述 性 的 介绍 ， 具 体 的 实现 请 读者 参阅 threading.py。 


RLock 


RLock 对 象 是 Lock 对 象 的 一 个 变种 ,其 内 部 维护 着 一 个 Lock 对 象 ， 但 是 它 是 一 种 可 
重 入 的 Lock。 一 般 地 ， 对 于 Lock 对 象 而 言 ， 如 果 一 个 线程 连续 两 次 进行 acquire 操作 ， 
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那么 由 于 第 一 次 acquire 之 后 没有 release， 第 二 次 acquire 将 挂 起 线程 ， 这 将 直接 导致 
Lock 对 象 永 远 不 会 release; 因此 线程 死 锁 。 Rock 对 和 象 允许 一 个 线程 多 次 对 其 进行 
acquire 操作 ， 因 为 在 其 内 部 通过 一 个 counter 变量 维护 着 线程 acquire 的 次 数 。 而且 
每 一 次 的 acquire 操作 必须 有 一 个 release 操作 与 之 对 应 ， 在 所 有 的 release 操作 都 完 
成 之 后 ， 别 的 线程 才能 申请 该 RLock 对 象 。 


Condition 


Condition 对 象 是 对 Lock 对 象 的 包装 ， 在 创建 condition 对 象 时 ， 其 构造 函数 需要 
一 个 Lock 对 象 作 为 参数 ,如果 没有 这 个 Lock 对 象 参数 ,condition 将 在 内 部 自行 创建 一 
个 Rlock 对 象 。 在 conditcicn 对 象 上 ， 当 然 也 可 以 调用 acauire 和 xelease 操作 ， 因 为 
内 部 的 Lock 对 象 本 身 就 支持 这 些 操作 。 但 是 condition 的 价值 在 于 其 提供 的 wait 和 
notify 的 语义 。 假 设 有 condition 对 痕 C， 当 线 程 A 调 用 C.wait() 时 ， 线程 A 将 释放 C 
中 的 Lock 对 象 ， 并 进入 阻塞 状态 ， 直 到 有 别 的 线程 油 用 c.notifty()， 支 才 会 重新 通过 
acquire 申请 C 中 的 Lock 对象 ， 并 退出 wait 操作。 


Semaphore 


Semaphore 对 象 内 部 维护 着 一 个 conaition 对 象 ， 对 于 管理 一 组 共享 资源 非常 有 用 和 
Lock 对 象 可 以 保护 一 个 共享 资源 ， 但 是 假如 我 们 有 一 个 共享 资源 池 ， 其 中 有 5 个 共享 资 
源 sa， 这 意味 着 可 以 有 5 个 线程 同时 自由 地 访问 这 些 资 源 ， 然 而 如 果 使 用 Lock 米 对 共享 
资源 进行 保护 的 话 ， 所 有 的 线程 都 将 互 斥 ， 这 使 得 有 4 个 资源 被 浪费 了 。semaphore 正 
是 在 conGition 的 基础 上 实现 的 对 共享 资源 池 进 行 保护 的 线程 同步 机 制 。Semaphore 提 
供 了 两 个 操作 ;acquire 和 release, 都 具有 与 Lock 相同 的 语义 。 当 线程 调用 Semaphore. 
acquire 时 ， 如 果 共 享 资源 池 中 还 有 剩余 的 A 时， 线程 就 会 继续 执行 ， 而 如 果 资 源 池 中 已 
经 没有 任何 资源 存在 了 ， 线 程 就 会 将 自身 挂 起 ， 直到 别 的 线程 调用 Semaphore.release 
释放 一 个 资源 。 


Event 


与 Semaphore 类 似 ，Event 对 象 实际 上 也 是 对 condition 对 象 的 一 种 和 包装， 只 是 提供 
了 独 有 的 set 和 wait 语义 。Event 类 的 代码 很 简单 ， 有 兴趣 的 读者 可 以 参考 threading:py。 


15.7.3 Threading 中 的 Thread 


在 thread3.py 中 我 们 看 到 ，threading 中 一 个 关键 的 组 件 是 threaaing.Thireaa， 在 
这 一 节 中 我 们 来 看 一 看 它 的 具体 实现 。 在 threading.Thread 的 实现 中 ， 你 会 发 现 我 们 前 
面 提 到 的 许多 机 制 。 
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OCX 


我 们 看 到 ， 在 调用 chreading.Thread.start 时 ， 会 在 _limbc 中 记录 线程 ， 然 后 通 
过 thread.start_new_thread 创建 原生 线程 ,线程 过 程 为 _bootstrap。 在 _ bootstrap 
中 ,会 从 _limbo 中 删除 线程 记录 , 转 而 将 线程 记录 到 _active 中 。 然 后 调用 run， 通常 用 
户 从 threading.Thread 派生 的 class 都 会 履 盖 run 函数 ， 这 就 实现 了 用 户 自 定义 的 线 
程 过 程 。 

在 threadiing,mhread 中 ， 维 护 着 一 个 condition 对象 ”block, 在 run 结束 后 ， 会 
调用 __scop 操作 。 在 这 个 操作 里 会 调用 condition 对 象 的 notifyall 函数 通知 所 有 等 待 
该 对 象 的 线程 ,那么 有 哪些 线程 会 等 待 这 个 对 象 呢 , 凡是 希望 等 待 该 线程 结束 消息 的 线程 ， 
都 会 通过 threading .Thread.join 操 作 注册 成 为 Conaition 对象 的 等 待 线程 ,可 以 看 到 ， 
在 join 中 ， 调 用 了 conaition 对 象 的 wait 操作 。 在 这 里 ， 我 们 看 到 了 Observer Pattern 
的 影子 ,与 我 们 通常 在 OO 语言 中 所 见 的 Observer Pattern 的 应 用 绝 然 不 同 , 但 是 毫 无 疑问 ， 
这 的 的 确 确 因 现 荐 Observer Pattern 的 身影 。 

对 于 chreading.Thread， 我 们 的 介绍 就 到 此 为 止 ， 更 加 细节 的 东西 ， 请 参与 
threading.py 文件 。 ， 
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内 存 管理 ， 对 于 Python 这 样 的 动态 语言 ， 是 至 关 重 要 的 一 部 分 ， 它 在 很 大 程度 上 其 
至 决定 了 Python 的 执行 效率 ， 因 为 在 Python 的 运行 中 ， 会 创建 和 销毁 大 量 的 对 象 ， 这 些 
都 涉及 内 存 的 管理 。 另 一 方面 ， 和 Java、C# 这 些 编 程 语 言 一 样 ，Python 提供 了 对 内 存 的 垃 
圾 收集 (GC) 机 制 ， 将 开发 者 从 繁琐 的 手动 维护 内 存 的 工作 中 解放 出 来 。Python 中 的 GC 
机 制 又 是 如 何 实现 的 呢 ? 在 这 一 章 中 ， 我 们 将 会 细致 地 剖析 Python 内 部 所 采用 的 内 存 管 
理 机 制 。 


16.1 ”内 存 管理 架构 


在 剖析 Python 的 内 存 管理 架构 之 前 ， 有 一 点 需要 说 明 。Python 中 所 有 的 内 存 管 理 机 
制 都 有 两 套 实 现 ， 这 两 套 实现 由 编译 符号 PYMALLOC_DEBUG 控制 ， 当 该 符号 被 定义 时 ， 使 
用 的 是 debug 模式 下 的 内 存 管 理 机 制 ， 这 套 机 制 在 正常 的 内 存 管理 动作 之 外 ， 还 会 记录 许 
多 关于 内 存 的 信息 ， 以 方便 Python 在 开发 时 进行 调试 ;而 当 该 符号 未 被 定义 时 ，Python 
的 内 存 管 理 机 制 只 进行 正常 的 内 存 管 理 动作 。 在 本 章 中 , 我 们 将 关注 的 焦点 只 放 在 非 debug 
模式 下 的 内 存 管理 机 制 上 。 


在 Python 中 ， 内 存 管理 机 制 被 抽象 成 一 种 层次 似 的 结果 ， 如 图 16-1 所 示 。 


在 最 底层 (第 0 层 ), 是 操作 系统 提供 的 内 存 管理 接口 , 比如 CC 运行 时 所 提供 的 malloc 
和 free 接口 。 这 一 层 是 由 操作 系统 实现 并 管理 的 ，Python 不 能 干涉 这 一 层 的 行为 。 从 这 
一 层 往 上 ， 剩 余 的 三 层 都 是 由 Python 实现 并 维护 的 。 
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图 16-1 ”Python 内 存 管理 机 制 的 层次 结构 

第 一 层 是 Python 基于 第 0 层 操作 系统 的 内 存 管理 接口 包装 而 成 的 ， 这 一 层 并 没有 在 
第 0 层 上 加 入 太 多 的 动作 ， 其 目的 仅仅 是 为 Python 提供 一 层 统一 的 raw memory 的 管理 接 
口 。Python 是 用 C 实现 的 ， 为 什么 还 需要 在 C 所 提供 的 内 存 管 理 接口 之 上 再 提供 一 层 并 
不 太 多 实际 意义 的 包装 层 呢 ? 这 是 因为 虽然 不 同 的 操作 系统 都 提供 了 ANSIC 标准 所 定义 
的 内 存 管理 接口 ， 但 是 对 于 某 些 特殊 的 情况 不 同 操作 系统 有 不 同 的 行为 。 比 她 铀 用 
malloc(0)， 有 的 操作 系统 会 返回 NULL， 表 示 内 存 申请 失败 ; 然而 有 的 操作 系统 会 返回 一 
个 瑶 似 正常 的 指针 ， 但 是 这 个 指针 所 指 的 内 存 并 不 是 有 效 的 。 为 了 最 广泛 的 可 移植 性 ， 
Python 必须 保证 相同 的 语义 一 定 代表 着 相同 的 运行 时 行为 , 为 了 处 理 这 些 与 平台 相关 的 内 
存 分 配 行为 ，Python 必须 要 在 C 的 内 存 分 配 接口 之 上 再 提供 一 层 包装 。 

在 Python 中 ， 第 一 层 的 实现 就 是 一 组 以 pyMem, 为 前 组 的 函数 族 ， 下 面 我 们 来 看 一 看 
这 第 一 层 内 存 管理 机 制 |: 





我 们 看 到 ， 在 第 一 层 ， Python 提供 了 类 似 于 C 中 mailoc、 realloc、free 的 语义 。 
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有 趣 的 是 ，PyMem_Malloc 是 通过 一 个 宏 PyMem_MALLOC 来 实现 的 ， 对 于 PyMem_Realloc 
和 pyMem_Free， 情 况 也 是 如 此 : 






显然 ，pyMem_Malloc 其 实 就 是 C 中 的 malloc， 只 是 对 申请 大 小 为 0 的 内 存 这 种 特 
殊 情况 进行 了 处 理 。Python 不 允许 申请 大 小 为 0 的 内 存 空间 ， 它 会 强制 将 其 装 换 为 申请 大 
小 为 1 个 字 节 的 内 存 空间 ， 从 而 避免 了 不 同 操作 系统 上 的 不 同 运行 时 的 行为 。 


这 里 有 一 个 有 趣 的 问题 ， 为 什么 Python 会 同时 提供 函数 和 宏 这 两 套 接口 呢 ? 其 实 ， 
这 正 是 Python 为 了 执行 效率 辜 精 竭 虚 的 表现 。 使 用 宏 可 以 避免 一 次 函数 调用 的 开销 ， 提 
高 运行 效率 。 但 是 对 于 用 户 使 用 C 来 编写 Python 的 扩展 模块 时 ， 使 用 宏 是 危险 的 ， 因 为 
随 着 Python 的 不 断 演进 , 其 内 存 管理 机 制 的 具体 实现 很 可 能 会 发 生变 化 , 所 以 虽然 Python 
中 宏 的 名 字 是 不 会 变 的 ， 但 是 其 所 代表 的 实现 代码 是 会 变 的 。 因此， 使 用 旧 的 宏 编写 的 C 
扩展 模块 就 可 能 与 新 版 本 的 Python 产生 二 进 制 不 兼容 ， 这 是 一 个 非常 危险 的 陷阱 。 因 此 
Python 对 于 这 些 内 存 管理 接口 ， 总 是 同时 提供 函数 和 宏 这 两 套 接口 ， 这 一 点 我 们 在 后 面 会 
经 常 看 到 。 如 果 使 用 C 来 编写 Python 的 扩展 模块 ， 使 用 函数 接口 是 一 个 良好 的 编程 习惯 。 


到 现在 为 止 ， 我 们 所 介绍 的 内 存 管理 接口 都 与 nalloc 等 有 相同 的 语义 ， 仅 仅 是 分 配 
raw memory 而 已 。 其 实在 第 一 层 中 ，Python 还 提供 了 面向 Python 中 类 型 的 内 存 分 配器 : 






EL 


"ey 上 “下 全 | 


在 pyMem_Malloc 中 ， 和 malloc 一 样 ， 程 序 员 需 要 自行 提供 所 申请 空间 的 大小。 然 
而 在 pyMem_New 中 ， 只 需要 提供 类 型 和 数量 ，Python 会 自动 侦 测 其 所 需 的 内 存 空间 大 小 。 

第 一 层 所 提供 的 内 存 管 理 接口 其 功能 是 有 限 的 ， 想 象 一 下 ， 假 如 我 要 创建 一 个 
pyIntobject 对 象 ， 还 需要 进行 许多 额外 的 工作 ， 比 如 设置 对 象 的 类 型 对 象 参数 ， 初始 化 
对 象 的 引用 计数 值 等 。 为 了 简化 Python 自身 的 开发 ，Python 在 比 第 一 层 更 高 的 抽象 层次 
上 提供 了 第 二 层 内 存 管理 接口 。 在 这 一 层 ， 是 一 组 以 pyobje _ 为 前 组 的 函数 族 ， 主 要 提供 
了 创建 Python 对 和 象 的 接口 。 这 一 套 函数 族 又 被 唤 作 FEymallec 机 制 ， 从 Python2.1 开始 ， 
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它 才 慢 慢 登 上 历史 舞台 , 在 Python 2.1 和 Python 2.2 中 , 这 个 机 制 是 作为 实验 性 质 的 机 制 ， 
所 以 默认 情况 下 是 不 打开 的 ， 只 有 自己 通过 一 with-pymalloc 编译 符号 重新 编译 
Python， 才 能 激活 Pymalloc 机 制 。 在 Python 2.3 发 布 时 ，Pymalloe 机 制 已 经 经 过 了 长 期 的 
优化 和 稳定 ， 终 于 登 上 了 “ 正 宫 ”的 位 置 ， 在 默认 情况 下 被 打开 了 。 


在 第 二 层 内 存 管理 机 制 之 上 ， 对 于 Python 中 的 一 些 常 用 对 象 ， 比 如 整数 对 象 、 字 符 
串 对 象 等 ，Python 又 构建 了 更 高 抽象 层次 的 内 存 管理 策略 。 对 于 第 三 朗 的 内 存 管理 策略 ， 
主要 就 是 对 象 缓 冲 池 机 制 ， 这 一 点 在 本 书 第 一 部 分 我 们 已 经 削 析 了 。 而 第 一 层 的 内 存 管理 
机 制 仅仅 是 对 malloc 的 简单 包装 ， 真 正在 Python 中 发 挥 巨大 作用 、 间 时 也 是 GC 的 藏身 
之 处 的 内 存 管理 机 制 ， 就 在 第 二 层 内 存 管理 机 制 中 。 所 以 ， 从 下 面 开始 ， 我 们 将 进入 对 这 
套 机 制 的 剖析 。 


16.2 ”小 块 空间 的 内 存 池 


在 Python 中 ， 许 多 时 候 申请 的 内 存 都 是 小 块 的 内 存 ， 这 些小 块 内 存在 申请 后 ， 很 快 
又 会 被 释放 ， 由 于 这 些 内 存 的 申请 并 不 是 为 了 创建 对 象 ， 所 以 并 没有 对 象 一 级 的 内 存 池 机 
制 。 这 就 意味 着 Python 在 运行 期 间 会 大 量 地 执行 matloc 和 Free 的 操作 ， 导 致 操作 系统 
频繁 地 在 用 户 态 和 核心 态 之 间 进 行 切换 ， 这 将 严重 影响 Python 的 执行 效率 。 为 了 提高 
Python 的 执行 效率 ，Python 引入 了 一 个 内 存 池 机 制 ， 用 于 管理 对 小 块 内 存 的 申请 和 释放 。 
这 也 就 是 之 前 提 到 的 Pymalloc 机 制 。 前 面 我 们 已 经 看 到 ,这 套 机 人 制 在 Python 2.5 中 默认 是 
启动 了 的 ， 也 就 是 说 ， 在 Python 2.5 中 ， 用 于 管理 小 块 内 存 的 内 存 池 就 被 激活 了 ， 并 通过 
byObject_Malloc、 PyObject_Realloc 和 PyObject_Free 三 个 接口 显示 给 Python。 


在 Python 2.5 中 , 整个 小 块 内 存 的 内 存 池 可 以 视 为 一 个 层次 结构 , 在 这 个 层次 结构 中 ， 
一 共 分 为 4 层 ， 从 下 至 上 分 别 是 : block、pool、arena 和 内 存 池 。 需 要 说 明 的 是 ，block、 
pool 和 arena 都 是 Python 代码 中 可 以 找到 的 实体 ， 而 最 顶层 的 “内 存 池 ”只 是 一 个 概念 上 
的 东西 ， 表 示 Python 对 于 整个 小 块 内 存 分 配 和 释放 行为 的 内 存 管理 机 人 制 。 





16.2.1 Block 


在 最 底层 ，block 是 一 个 确定 大 小 的 内 存 块 。 在 Python 中 ， 有 很 多 种 block， 不同 种 类 
的 block 都 有 不 同 的 内 存 大 小 ， 这 个 内 存 大 小 的 值 被 称 为 size class。 为 了 在 当前 主流 的 32 
全 各 和 和 64 De ee 站 由 block 的 长 度 都 是 8 字 节 对 齐 的 。 


od ' i "| 


ds ul el 
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同时 ，Python 为 block 的 大 小 设 定 了 一 个 上 限 ， 当 申请 的 内 存 大 小 小 于 这 个 上 限时 ， 
Python 可 以 使 用 不 同 种 类 的 block 来 满足 对 内 存 的 需求 ， 当 申请 的 内 存 大 小 超过 了 这 个 上 
限 , Python 就 会 将 对 内 存 的 请 求 转 交 给 第 一 层 的 内 存 管理 机 制 ; 即 PyMem 函数 族 , 来 处 理 。 
这 个 上 限 值 在 Python 2.5 中 被 设置 为 256。 






pe 
voy sy 

# 性 TY MAL 
.I , 






根据 smaLL_REQUEST_THRESHOLD 和 ALIGNMENT 的 限定 , 实际 上 ,我们 可 以 由 此 得 到 
不 同 种 类 的 block 的 size class 分 别 为 8，16，32，…，256。 每 个 size class 对 应 一 个 size 
class index， 这 个 index 从 0 开始 。 所 以 对 于 小 于 256 字 节 的 小 块 内 存 的 分 配 ， 我 们 可 以 得 
到 如 下 的 结论 : 






也 就 是 说 ， 当 我 们 申请 一 块 大 小 为 28 字 节 的 内 存 时 ,实际 上 Pyobject_Malloc 从 内 
存 池 中 划 给 我 们 的 内 存 是 32 字 节 的 一 个 block， 从 size class index 为 3 的 pool (关于 pool 
到 底 是 什么 劳 什 子 ， 参 见 下 一 节 的 剖析 ， 这 里 可 以 暂且 想象 成 block 的 集合 )》 中 划 出 。 下 
面 的 两 个 式 子 给 出 了 在 size class 和 size class index 之 间 的 转换 ; 







现在 ， 需 要 指出 一 个 相当 关键 的 点 ， 虽 然 我 们 这 里 谈论 了 很 多 block， 但 是 在 Python 
中 ，block 只 是 一 个 概念 ， 在 Python 源码 中 没有 与 之 对 应 的 实体 存在 。 之 前 我 们 说 对 象 ， 
对 象 在 Python 源码 中 有 对 应 的 pgyobjsct; 我 们 说 列表 ， 列 表 在 Python 源码 中 对 应 
PyListObject、pPyType_List。 这 里 的 block 就 很 奇怪 了 ， 它 仅仅 是 概念 上 的 东西 ， 我 们 
知道 它 是 具有 一 定 大 小 的 内 存 ， 但 它 不 与 Python 源码 里 的 某 个 东西 对 应 。 然 而 ，Python 
却 提供 了 一 个 管理 block 的 东西 ， 这 就 是 下 面 要 剖析 的 pool。 
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16.2.2 Pool 


一 组 block 的 集合 称 为 一 个 pool， 换 句 话说， 一 个 pool 管理 着 一 堆 有 固定 大 小 的 内 存 
块 。 事 实 上 ，pool 管理 着 一 大 块 内 存 ， 它 有 一 定 的 策略 ， 将 这 块 夫 的 内 存 划分 为 多 个 小 的 
内 存 块 。 在 Python 中 ， 一 个 pool 的 大 小 通常 为 一 个 系统 内 存 页 ， 由 于 当前 大 多 数 Python 
支持 的 系统 的 内 存 页 都 是 4KB， 所 以 Python 内 部 也 将 一 个 pool 的 大 小 定义 为 4KB。 
[obmalloc.,c} 
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虽然 Python 没有 为 block 提供 对 应 的 结构 ， 但 它 对 于 pool 却 是 相当 照顾 的 。Python 
源码 中 的 pool_header 就 是 为 pool 这 个 概念 提供 的 实现 





我 们 刚才 说 了 一 个 pool 的 大 小 在 Python2.5 中 是 4KB， 但 是 看 看 这 个 pool_header 
呢 ? 就 算是 用 大 腿 看 也 能 看 出 pool_header 吃 不 完 4KB 的 内 在 。 关键 就 在 于 “heaaer” 
这 个 词 ,原来 这 个 pool_header 仅仅 是 一 个 pool 的 头 部 ,4KB 的 内 存 , 除 去 pool_header， 
还 有 很 大 一 块 。 还 记得 我 们 说 过 pool 管理 着 一 堆 block 吗 ? 对 了 ,这 剩 下 的 很 天 一 抉 的 内 
存 就 是 pool 中 维护 的 block 的 集合 占用 的 内 存 。 

前 面 提 到 block 是 有 固定 大 小 的 内 存 块 ， 因 此 ，pool 也 携带 了 大 量 这 样 的 信息 。 一 个 
pool 管理 的 所 有 block， 它 们 的 大 小 都 是 一 样 的 。 也 就 是 说 ， 一 个 pool 可 能 管理 了 100 个 
32 个 字 节 的 block， 也 可 能 管理 了 100 个 64 个 字 节 的 block， 但 是 绝 不 会 有 一 个 管理 了 50 
个 32 字 节 的 block 和 50 个 64 字 节 的 block 的 pool 存在 。 每 一 个 pool 都 和 一 个 size 联系 
在 一 起 ， 更 确切 地 说 ， 都 和 一 个 size class index 联系 在 一 起 。 这 就 是 pool_header 中 的 
szindex 的 意义 。 

假设 我 们 手 上 现在 有 一 块 4KB 的 内 存 ， 来 看 看 Python 是 如 何 将 这 块 内 存 改造 为 一 个 
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管理 32 字 节 block 的 pool， 并 从 pool 中 取出 第 一 块 block 的 。 . 





最 后 返回 的 bp 就 是 指向 从 pool 中 取出 的 第 一 块 block 的 指针 。 也 就 是 说 ，pool 中 第 
一 块 block 已 经 被 分 配 了 ， 所 以 在 ref.count 中 记录 了 当前 已 经 被 分 配 的 block 数量 ， 这 时 
为 1。 特别 需要 注意 的 是 ，bp 返回 的 实际 是 一 个 地 址 ， 这 个 地 址 之 后 有 将 近 4KB 的 内 存 
实际 上 都 是 可 用 的 ， 但 是 可 以 表 定 申请 内 存 的 函数 只 会 使 用 [bp, bp+size] 这 个 区 间 的 内 存 ， 
这 是 由 size class index 可 以 保证 的 。 好 了 , 来 看 一 看 图 16-2 所 示 的 一 块 经 过 改造 后 的 4KB 
内 存 。 
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POOL « OVERHEAD 
16-2 改造 成 pool 后 的 4kB 内 存 
注意 其 中 的 实 线 箭头 是 指针 ， 但 是 卉 线 第 头 不 是 代表 指针 ， 是 偏 移 位 置 的 形 锭 表示 。 
在 nextoffset 和 maxnextoffset 中 存储 的 是 相对 于 poo 头 部 的 偏 移 位 置 。 


在 了 解 了 初始 化 后 的 pool 的 样子 之 后 ， 可 以 来 看 看 Python 在 申请 block 时 ， 
pool_header 中 的 各 个 域 是 怎么 变动 的 ,假设 我 们 从 现在 开始 连续 申请 5 块 28 字 节 内 存 ， 
由 于 28 个 字 节 对 应 的 size class index 为 3， 所 以 实际 上 会 申请 5 块 32 字 节 的 内 存 。 
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人 





原来 treeblock 指向 的 是 下 一 个 可 用 的 block 的 起 始 地 址 ， 这 一 点 在 图 16-2 中 也 可 
以 看 得 出 。 当 再 次 申请 32 字 节 的 block 时 ， 只 项 返回 Ereeblock 指向 的 地 址 就 可 以 了 ， 
很 显然 , 这 时 freeblock 需要 向 前 进 , 指向 下 一 个 可 用 的 block。 这 时 ，nextoffset 现 身 了 。 

在 pool header 中 ， nextoffset 和 maxoffset 是 两 个 用 于 对 pool 中 的 block 集合 进 
行 迭 代 的 变量 ， 从 初始 化 pool 的 结果 及 图 16-2 中 可 以 看 到 ， 它 所 指示 的 偏 移 位 置 正好 指 
向 了 freeblock 之 后 的 下 一 个 可 用 的 block 的 地 址 。 从 这 里 分 配 block 的 动作 也 可 以 看 到 ， 
在 分 配 了 block 之 后 ，freeblock 和 nextoffset 都 会 向 前 移动 一 个 biock 的 距离 ， 如 此 
反复 ， 就 可 对 所 有 的 block 进行 一 次 遍历 。 而 maxnextoffset 指名 了 该 pool 中 最 后 一 个 
可 用 的 block 距 pool 开始 位 置 的 便 移 ， 它 界定 了 pool 的 边界 ， 当 nextoffset > 
maxnextoffset 时 ， 也 就 意味 着 已 经 遍历 完了 pool 中 所 有 的 block 了 。 


咽 ， 申 请 ， 前 进 ， 申 请 ， 前 进 ， 这 个 过 程 非常 自然 ， 也 容易 理解 。 但 是 且慢 ， 这 好 像 
意味 着 一 个 pool 中 只 能 满足 po0L_sIZE/size 次 对 block 的 申请 ， 这 很 难 让 人 接受 。 如 果 
这 样 不 容易 理解 ， 我 们 来 考虑 一 个 形象 的 例子 。 现 在 我 们 已 经 进行 了 5 次 连续 的 32 字 节 
的 内 存 分 配 ， 可 以 想像 ，pool 中 5 个 连续 的 block 都 被 分 配 出 去 了 。 过 了 一 段 时 间 ， 程 序 
释放 了 其 中 第 2 和 第 4 块 block， 那 么 下 一 次 再 分 配 32 字 节 的 内 存 时 ，pool 提交 的 应 该 是 
第 2 块 还 是 第 6 块 block 呢 ? 很 显然 ,为 了 pool 的 使 用 效率 ， 最 好 再 次 分 配 自由 的 第 2 块 

，block。 可 以 想像 ， 一 旦 Python 运转 起 来 ， 内 存 的 释放 动作 将 会 导致 pool 中 出 现 大 量 的 离 
散 的 自由 block, Python 必须 建立 一 种 机 制 , 将 这 些 离散 的 自由 block 组 织 起 来 , 再 次 使 用 。 
这 个 机 制 就 是 所 谓 的 自由 block 链表 。 这 个 链表 的 关键 就 着 落 在 pool_header 中 的 那个 
freeblock 身上 。 


刚才 我 们 就 说 了 ， 当 pool 初始 化 完成 之 后 ，freebloek 指向 了 一 个 有 效 的 地 址 ， 为 
下 一 个 可 以 分 配 出 去 的 block 的 地 址 。 然 而 奇特 的 是 ，Python 在 设置 了 Eresblock 之后， 
还 设置 了 *freeblock。 这 一 个 动作 似乎 非常 诡异 ， 然 而 我 们 马上 就 会 看 到 ， 设 置 
*freeblock 的 动作 正 是 建立 离散 自由 block 链表 的 关键 所 在 。 目 前 我 们 看 到 的 freebiock 
只 是 在 机 械 地 前 进 前 进 ， 这 是 因为 它 在 等 待 一 个 特殊 的 时 刻 ， 在 这 个 特殊 的 时 刻 ， 你 会 发 
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现 freeblock 开始 成 为 一 个 苏醒 的 精灵 ， 在 这 4KB 内 存 上 开始 灵活 地 舞动 。 这 个 特殊 的 
时 刻 就 是 一 个 block 被 释放 的 时 刻 〔 见 代码 清单 16-1)。 


代码 清单 16-1 









在 释放 block 时 ， 神 秘 的 freeblock 惊 鸿 一 现 ， 困 六 在 freeblock 身上 那 层 神秘 的 
面纱 就 要 揭 开 了 。 我 们 知道 ， 这 时 Ereeblock 虽然 指向 了 一 个 有 效 的 pool 内 地 址 ， 但 是 
*freeblock 是 为 NULL 的 , 假设 这 时 Python 释放 的 是 block A, 在 代码 清单 16-1 的 [1] 之 后 ， 
A 中 第 一 个 字 节 的 值 被 设置 为 了 当前 freeblock 的 值 ， 而 在 [2] 之 后 ，frzesbloek 的 值 被 
更 新 了 ， 指 向 了 block A 的 首 地 址 。 就 是 这 短 短 的 两 步 ， 一 个 block 被 插入 到 了 离散 自由 
block 链表 中 。 所 以 当 第 2 块 和 第 4 抉 block 都 被 释放 之 后 , 我们 可 以 看 到 一 个 初 具 规模 的 
离散 自由 block 链表 了 ， 如 图 16-3 所 示 。 
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图 16-3 释放 了 block 之 后 产生 的 自由 block 链表 


到 了 这 里 ， 这 条 实现 方式 非常 奇特 的 离散 自由 block 链表 被 我 们 挖 据 出 来 了 。 从 
freeblock 开始 ， 我 们 可 以 很 容易 地 以 Ereeblock = *freeblock 的 方式 遍历 这 条 链表 ， 
而 当 发 现 了 *fzreebliock 为 NULL 时 ， 则 表明 到 达 了 该 链表 的 尾部 了 。 这 条 链表 将 影响 到 在 
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本 小 节 开始 时 我 们 齐 析 过 的 一 般 的 block 分 配 行为 《 见 代码 清单 16.2)。 
代码 清单 16-2 





这 里 的 代码 清单 16-2 的 [J 和 [2] 正 是 Python 中 freeblock = *fresblioek 的 实现 方式 。 
当 [2] 处 的 判断 为 真 时 ， 表 明 已 经 不 存在 离散 自由 block 链表 了 ， 如 果 可 能 ， 则 会 继续 分 配 
pool 的 nextoffset 指定 的 下 一 块 block。 但 是 ， 如 果 连 nextoffset <- maxnextoffset 
都 不 成 立 了 呢 ? 畴 ， 老 兄 ， 别 忘 了 ， 我 们 现在 谈论 的 仅仅 是 一 个 pool 如 果 这 个 pool 中 
的 block 被 用 光 了 ， 最 简单 的 解决 方案 就 是 : 我 给 你 另 一 个 pool。 这 就 意味 着 ， 在 Python 
中 ， 存 在 一 个 pool 的 集合 。 


16.2.3 arena 


在 Python 中 ， 多 个 pool 聚合 的 结果 就 是 一 个 arena。 上 一 节 提 到 ，pool 的 大 小 的 默认 
值 为 4KB， 同 样 ， 每 个 arena 的 大 小 都 有 一 个 默认 的 值 。 在 Python 2.5 中 ， 这 个 值 由 名 
为 ARENA_sIZE 的 符号 控制 ， 为 256KB。 那么 很 显然 ， 一 个 arena 中 容纳 的 pool 的 个 数 就 
是 ARENA_SIZE / POOL_SIZE = 64 个 。 


好 了 ， 我 们 现在 来 看 一 看 Python 中 的 arena 到 底 是 个 什么 东西 。 
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一 个 概念 上 的 arena 在 Python 源码 中 就 对 应 arena_object 结构 体 ， 确 切 地 说 ， 
arena_object 仅仅 是 一 个 arena 的 一 部 分 ， 就 像 p601_headez 只 是 pool 的 一 部 分 一 样 。 
一 个 完整 的 arena 包括 一 个 arena_object 利 透 过 这 个 arena_object 管理 着 的 pool 集合 。 
同样 ,pool 的 情况 类 似 ,一 个 完整 的 pool 包括 一 个 pool_header 和 透 过 这 个 pool _header 
管理 着 的 block 集合 。 


16.2.3.1 “未 使 用 ”的 arena 和 “可 用 ”的 arena 


在 arena_object 结构 体 的 定义 中 , 我 们 看 到 了 nextarea 和 brevarea 这 两 个 东西 ， 
这 似乎 意味 着 在 Python 中 会 有 一 个 多 个 arena 构成 的 链表 ， 这 个 链表 的 表 头 就 是 atenas。 
肛 ， 这 种 猜测 只 对 了 一 半 ， 实 际 上 ,在 Python 中 ， 确 实 会 存在 多 个 arena_object 构成 的 
集合 , 但 是 这 个 集合 并 不 构成 链表 , 而 是 构成 了 一 个 arena 的 数组 。 数 组 的 首 地 址 由 arenas 
维护 ,这 个 数组 就 是 Python 中 的 通用 小 块 内 存 的 内 存 池 ; 另 一 方面 , nextarea 和 prevarea 
也 确实 是 用 来 连接 arena_object 组 成 链表 的 ， 既 然 多 个 arena_object 已 经 通过 数组 组 
织 起 来 了 ， 为 什么 又 要 摘出 一 个 链表 来 。 乍 一 看 ， 欣 的 有 点 稍 奇 古怪 。 


我 们 曾 说 arena 是 用 来 管理 一 组 pool 的 集合 的 ， arena_object 的 作用 看 上 去 和 
pool_header 的 作用 是 一 样 的 , 但 是 实际 上 , pool_header 管理 的 内 存 和 areana, object 
管理 的 内 存 有 一 点 细微 的 差别 。pool_heaaer 管理 的 内 存 与 pool_header 自身 是 一 块 连 
续 的 内 存 ， 而 areana_object 与 其 管理 的 内 存 则 是 分 离 的 。 这 种 差别 如 图 16:4 所 示 。 


wy we P 
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图 16-4 pool 和 arena 的 内 存 布局 区 别 
初 看 上 去 ， 这 似乎 没什么 大 不 了 的 ， 不 就 一 个 是 连 着 的 ， 一 个 是 分 开 的 吗 ? 但 是 这 后 
面 隐藏 着 这 样 一 个 事实 : 当 pool_header 被 申请 时 ， 它 所 管理 的 block 集合 的 内 存 一 定 也 
被 申请 了 ; 但 是 当 asrna_object 被 申请 时 ， 它 所 管理 的 pool 集合 的 内 存 则 没有 被 申请 。 
换 句 话说 ，arena_object 和 pool 集合 在 某 一 时 刻 需 要 建立 联系 。 注 意 ， 这 个 建立 联系 的 
时 刻 是 一 个 关键 的 时 刻 ，Python 从 这 个 时 刻 一 力 切 下 ， 将 一 个 arena_object 切 分 为 两 种 
状态 。 J 
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当 一 个 arena 的 area_object 没有 与 pool 集合 建立 联系 时 ， 这 时 的 arena 处 于 “未 使 
用 ”状态 ， 一 旦 建立 了 联系 ， 这 时 arena 就 转换 到 了 “可 用 ”状态 。 对 于 每 一 种 状态 ， 都 
有 一 个 arena 的 链表 。“ 未 使 用 ”的 arena 的 链表 表 头 是 unusea_arena_objecEs、arena 
与 arena 之 间 通 过 nextarena 连接 ， 是 一 个 单 向 链表 ; 而 “可 用 ”的 arena 的 链表 表 头 是 
usable_arenas、arena 与 arena 之 间 通 过 nextarena 和 prevarena 连接 ， 是 一 个 双向 链 
表 。 图 16-5 展示 了 某 一 时 刻 多 个 arena 的 一 个 可 能 状态 。 





图 16-5 ”arena 集合 在 某 时 刻 的 可 能 状态 


16.2.3.2 ”申请 arena 


在 运行 期 间 ，Python 使 用 new_areria 来 创建 一 个 arena， 我 们 来 看 看 arena 创建 时 的 
”情形 ( 见 代码 清单 16-3)。 


代码 清单 16-3 
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在 代码 清单 16-3 的 [1 处，Python 首先 会 检查 当前 unused_arena_objects 链表 中 是 


如 果 在 unused_arena_objects 中 还 存在 “未 使 用 ”的 arena， 那 么 Python 将 直接 开 
始 代码 清单 16-3 的 [ 引 处 的 动作 ， 从 unused_arena_cbjects 中 抽取 出 一 个 arena, 接着 调 
整 unused_arena_objects, 与 抽取 出 的 arena 彻底 断绝 一 切 联系 。 然 后 , 在 代码 清单 16-3 
的 [5] 处 ，Python 申请 了 一 块 大 小 为 ARENA_sIzE (256KB ) 的 内 存 ， 将 申请 的 内 存 的 地 址 
赋 给 arena 的 address。 我 们 已 经 知道 ，arena 中 维护 的 是 pool 的 集合 ， 这 块 256KB 的 内 存 
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就 是 pool 的 容 身 之 处 , 这 时 arena_object 就 和 pool 集合 建立 联系 了 ,这 个 arena 已 经 具 
备 了 成 为 “可 用 ”内 存 的 条 件 。 到 了 这 里 ，arena 和 uinusea_arena_objects 已 经 脱离 了 
关系 ， 就 等 着 usable_arenas 这 个 组 织 的 接收 了 ， 到 底 什么 时 候 才 能 接收 呢 ， 别 急 ， 谜 
底 一 会 儿 揭 晓 @@。 


随后 ， 在 代码 清单 16-3 的 [6] 处 ，Python 设 署 了 一 些 arena 用 于 维护 pool 集合 的 信息 。 
特别 注意 的 是 ， 在 [6] 的 动作 中 ，Python 将 申请 到 的 256KB 内 存 进行 了 处 理 ， 放 弃 了 一 些 
内 存 ， 而 将 可 使 用 的 内 存 边界 (pool_address) 调整 到 了 与 系统 页 对 齐 。 代 码 清单 16-3 的 
[16] 处 将 freepools 设置 为 NU， 基于 前 面 我 们 对 pool 中 Ereeblock 的 了 解 ， 这 没什么 
大 惊 小 怪 的 ， 看 来 要 等 到 释放 一 个 pool 时 ， 这 个 freepools 才 有 用 。 最 后 我 们 看 到 ，pool 
集合 所 占用 的 256KB 的 内 存在 进行 边界 对 齐 后 ， 实 际 上 是 交 给 pool_address 来 维护 了 。 


回 到 new_arena 中 代码 清单 16-3 的 [1] 处 的 判断 ， 如 果 unusea_arena_objects 为 
NULL， 则 表明 目前 系统 中 已 经 没有 “未 使 用 ”的 arena 了 ， Python 将 首先 扩大 系统 的 arena 
集合 (小 块 内 存 内 存 池 )}。Python 在 内 部 通过 一 个 唤 作 naxarenas 的 变量 维护 了 在 arenas 
指向 的 数组 中 存储 的 arena_object 的 个 数 。 在 [2] 处 ， Python 将 待 申 请 的 arena_object 
的 个 数 设 置 为 当前 arena_object 个 数 (maxarenas) 的 2 倍 。 当 然 ， 在 首次 初始 化 时 ， 
maxarenas 为 0， 这 时 ，Python 将 新 的 maxarenas 初始 化 为 16。 


在 获得 了 新 的 maxarenas 后 ，Python 会 检查 这 个 新 得 到 的 值 是 否 溢出 了 。 如 果 检 查 
顺利 通过 ，Python 在 代码 清单 16-3 的 [3] 处 通过 realloc 扩大 arenas 指向 的 内 存 ， 并 对 新 
申请 的 arena_objeet 进行 设置 ， 特 别 要 提 到 的 是 那个 瑶 似 毫 不 起 眼 的 address，[3] 处 将 
新 申请 的 arena 的 address 一 律 设置 为 0。 实 际 上 ， 这 是 一 个 标识 一 个 arena 是 处 于 “未 使 
用 ”状态 还 是 “可 用 ”状态 的 重要 标记 。 看 看 [6] 处 ， 一旦 arena 的 arena_object 与 pool 
集合 建立 了 联系 ， 这 个 address 就 变 成 了 非 0。 当 然 ， 别 忘 了 我 们 为 什么 会 来 到 [3] 这 里 的 ， 
咱们 可 不 是 饭 后 随便 溜达 到 这 里 的 ,是 因为 那个 重要 的 unused_arena_objects 变 为 NULL 
了 。 对 唆 ， 所 以 最 后 还 设置 了 unuseda_arena_objects。 这 样 一 来 ， 系 统 中 又 有 了 “未 使 
用 ”的 arena 了 ， 接 下 来 ，Python 就 将 进入 [4 处 对 一 个 arena 的 初始 化 了 。 


16.2.4 内 存 池 





16.2.4.1 可 用 pool 缓冲 池 


在 Python 2.5 中 ，Python 内 部 默认 的 小 块 内 存 与 大 块 内 窑 的 分 界 点 定 在 256 个 字 节 ， 
这 个 分 界 点 由 前 面 我 们 看 到 的 名 为 SMALL_REQUEST_THRESHOLD 的 符号 控制 。 也 就 是 说 ， 
当 申 请 的 内 存 小 于 256 字 节 时 ,Fyobject_Malloc 会 在 内 存 池 中 申请 内 存 ; 当 申 请 的 内 存 


Usedpools 
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大 于 256 字 节 时 ，pyobject_Malloe 的 行为 将 赔 化 为 malloc 的 行为 。 当 然 ， 通 过 修改 
Python 源 代 码 ， 我 们 可 以 改变 这 个 默认 值 ， 从 而 改变 Python 的 默认 内 存 管理 行为 。 

当 Python 申请 小 于 256 字 节 的 内 存 时 ，Python 会 使 用 arenas 所 维护 的 内 存 空间 。 那 
么 Python 内 部 对 于 arena 的 个 数 是 否 有 限制 呢 ? 换 句 话说 , Python 对 于 这 个 小 块 空间 内 存 
池 的 天 小 是 否 有 限制 ? 这 个 决策 取决 于 用 户 ，Python 提供 了 一 个 编译 符号 , 用 于 控制 是 否 
限制 这 个 内 存 池 的 大 小 。 

当 Python 在 wITH_MEMORY_LIMITS 编译 符号 打开 的 背景 下 进行 编译 时 ，Python 内 部 
的 另 一 个 符号 会 被 激活 ， 这 个 名 为 suALL_MEMoORY_LIMIT 的 符号 限制 了 整个 内 存 池 的 大 
小 ， 同 时 ， 也 就 限制 了 可 以 创建 的 arena 的 个 数 。 在 默认 情况 下 ， 不 论 是 Win32 平台 ， 还 
是 unix 平台 ， 这 个 编译 符号 都 是 没有 打开 的 ， 所 以 通常 Python 都 没有 对 小 块 内存 的 内 存 
池 的 大 小 做 任何 的 限制 。 





人 一 
加 ~ 
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尽管 我 们 在 前 面 花费 了 大 量 篇 幅 介 绍 arena， 同 时 也 看 到 arena 是 Python 小 块 内存 池 
的 最 上 层 结构 ， 所 有 arena 的 集合 实际 就 是 小 块 内存 池 。 然 而 在 实际 的 使 用 中 ，Python 并 
不 直接 与 arenas 和 arena 打交道 。 当 Python 申请 内 存 时 ， 报 基本 的 操作 单元 并 不 是 arena， 
而 是 pool。 唉 ， 绕 来 绕 去 的 ， 我 都 觉得 快 尝 了 ， 没 办 法 ， 兄 弟 ， 挺 住 ， 后 面 还 有 很 多 昵 @。 


举 个 例子 ， 当 我 们 申请 一 个 28 字 节 的 内 存 时 ，Python 内 部 会 在 内 存 池 中 寻找 一 块 能 
满足 需求 的 pool， 从 中 取出 一 个 block 返回 ， 而 不 会 去 寻找 arena。 这 实际 上 是 由 pool 和 
arena 自身 的 属性 决定 的 。 在 Python 中 ，pool 是 一 个 有 size 概念 的 内 存 管理 抽象 体 ， 一 个 
pool 中 的 block 总 是 有 确定 的 夫 小 ， 这 个 pool 总 是 和 某 个 size class index 对 应 ， 还 记得 
pool_head 中 的 那个 szidx 么 ”而 arena 是 没有 size 概念 的 内 存 管理 抽象 体 ， 这 就 意味 着 ， 
同一 个 arena， 在 某 个 时 刻 ， 其 内 的 pool 集合 可 能 都 是 管理 的 32 字 节 的 block; 而 到 了 另 
一 时 刻 ， 由 于 系统 需要 ， 这 个 arena 可 能 被 重新 划分 ， 其 中 的 pool 集合 可 能 改 为 管理 64 
字 节 的 block 了 ， 甚 至 pool 集合 中 一 半 管 理 32 字 节 ， 一 半 管 理 64 字 节 。 这 就 决定 了 在 进 
行内 存 分 配 和 销毁 时 ， 所 有 的 动作 都 是 在 pool 上 完成 的 。 

内 存 池 中 的 pool， 不 仅 是 一 个 有 size 概念 的 内 存 管理 抽象 体 ， 而 且 ， 更 进一步 的 ， 它 
还 是 一 个 有 状态 的 内 存 管理 抽象 体 。 一 个 pool 在 Python 运行 的 任何 一 个 时 刻 ， 总 是 处 于 
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以 下 三 种 状态 的 一 种 : 

> “used 状态 : pool 中 至 少 有 一 个 block 已 经 被 使 用 , 并 且 至 少 有 一 个 block 还 未 被 使 用 。 
这 种 状态 的 pool 受 控 于 Python 内 部 维护 的 usedpools 数组 ; 

> full 状态: pool 中 所 有 的 block 都 已 经 被 使 用 ， 这 种 状态 的 pool 在 arena 中 ， 但 不 在 
arena 的 freepools 链表 中 ， 

> empty 状态 : pool 中 所 有 的 block 都 未 被 使 用 ， 处 于 这 个 状态 的 pool 的 集合 通过 其 
pool_header 中 的 nextpool 构成 一 个 链表 , 这 个 链表 的 表 头 就 是 arena_object 中 的 


freepools; 


图 16-6 给 出 了 一 个 arena 中 包含 三 种 状态 的 pool 的 集合 的 一 个 可 能 状态 。 
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图 16-6 某 个 时 刻 aerna 中 pool 集合 的 可 能 状态 

请 注意 ，arena 中 处 于 full 状态 的 pool 是 各 自 独立 的 ， 并 没有 像 其 他 的 pool 一 样 会 链 
接 成 链表 。 

在 图 16-6 中 ， 我 们 看 到 所 有 处 于 used 状态 的 pool 都 被 垃 于 usedpools 的 控制 之 下 。 
Python 内 部 维护 的 usedpools 数组 是 一 个 非常 巧妙 的 实现 ， 维 护 着 所 有 的 处 于 used 状态 的 
pool。 当 申请 内 存 时 ，Python 就 会 通过 usedpools 寻找 到 一 块 可 用 的 (处 于 used 状态 的 ) 
pool， 从 中 分 配 一 个 block。 从 这 个 简要 的 叙述 中 ， 我 们 已 经 可 以 看 到 ， 一 定 有 一 个 与 
usedpools 相关 联 的 机 制 ， 完 成 从 申请 的 内 存 的 大 小 到 size class index 之 间 的 转换 ， 否 则 
Python 也 就 无 法 寻找 到 最 合适 的 pool 了 。 这 种 机 制 与 usedpools 的 结构 有 密切 的 关系 ， 我 
们 来 看 一 看 usedpools 的 结构 。 
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其 中 的 NB_sMaLL_srtzE_cLassEs 指明 了 在 当前 的 配置 之 下 ,一 共有 多 消 个 size class。 
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这 个 数组 的 定义 有 些 怪异 ， 别 急 ， 待 我 们 用 一 幅 图 来 展示 这 个 怪异 的 usedpools 数组 ， 
如 图 16-7 所 示 。 









/* Pool for small blocks, */ 
struct pool_ header { 
union { block + padding, 
uint count; 】 ref; /* numbe 
block *fresblock; A pool’ 
struct pool headsr Tnextpool- 


struct vonl header 


ine mensiniev 





16-7 usedpools 数组 


这 样 看 上 去 似乎 仍然 的 不 着 头脑 ， 别 急 ， 我 们 来 考虑 一 下 当 申 请 28 个 字 节 时 的 情形 。 
前 面 我 们 提 到 ，Python 会 首先 获得 size class index， 通 过 size = (uint ) (nbytes - 1) >> 
ALIGNMENT_SHIFT， 得 到 size class index 为 3。 在 usedpools 中 ,寻找 第 3+3=6 个 元 素 ， 发 
现 usedpools[6] 的 值 是 指向 usedGpools [4] 的 地 址 。 有 些 迷 甘 了 ， 对 吧 ? 好 了 ， 现 在 对 照 
pool_header 的 定义 来 看 一 看 usedpcols [6] ->nextpool 这 个 指针 指向 哪里 了 呢 ? 是 从 
useapools[6] ( 即 usedpools#4) 开始 向 后 偏 移 8 个 字 节 《一 个 ref 的 大 小 加 上 一 个 
freeblock 的 大 小 ) 后 的 内 存 ， 不 正 是 ussdpcols[61 的 地 址 ( 即 usedpools+6) 吗 ? 这 
是 Python 内 部 使 用 的 一 个 trick。 


想象 一 下 , 当 我 们 手中 有 一 个 size class 为 32 字 节 的 pool, 想 要 将 其 放 入 这 个 usedpools 
中 时 ， 需 要 怎么 做 呢 ? 从 上 面 的 描述 可 以 看 到 ， 只 需要 进行 saedpools[i+i]->nextpool 
= pool 即 可 ， 其 中 i 为 size class index， 对 应 于 32 字 节 ， 这 个 i 为 3。 当 下 次 需要 访问 size 
class 为 32 字 节 (size class index 为 3) 的 pool 时 ， 只 需要 简单 地 访问 usedpool[343] 就 可 以 
得 到 了 。Python 正 是 使 用 这 个 usedpools 快速 地 从 众多 的 pool 中 快速 地 寻找 到 一 个 最 适合 
当前 内 存 需 求 的 pool， 从 中 分 配 一 块 block。 


在 我 们 即将 看 到 的 pyobject_Malloc 代码 中 ，Python 利用 了 usedpools 的 巧妙 结构 ， 
通过 简单 的 判断 来 发 现 与 某 个 class size index 对 应 的 pool 是 否 在 usedpools 中 存在 。 下 面 
是 pyobject_Malloc 中 进行 这 个 判断 的 代码 。 
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在 图 16-8 中 ， 还 是 以 申请 大 小 为 28 字 节 的 内 存 块 为 例 ， 展示 了 pool != pool~> 

nextpool 为 什么 能 够 工作 的 原因 。 我 们 在 Python 的 源 代码 中 添加 了 代码 ， 使 得 Python 

在 第 一 次 申请 size class index 为 3 的 内 存 块 时 发 生 中 断 ， 以 便 形 象 地 观察 这 时 usedpools 
的 内 存 布局 。 图 16-8 di a sd pool 和 pool->nextpool 的 值 。 


lxe = (uint) es 一 1) >> ALIGNENT ， St 
if(size = 3) 
) int 3 三 0; 


bool = usedpools [size + s1ze]; 
于 Goal l= pool->nextpool) { 





图 16-8 a 


16.2.4.2 ”Pool 的 初始 化 


当 Python 启动 之 后 , 在 usedpools 这 个 小 块 空间 内 存 池 中 , 并 不 存在 任何 可 用 的 内 存 ， 
准确 地 说 ， 不 存在 任何 可 用 的 pool。 在 这 里 ，Python 采用 了 延迟 分 配 的 策略 ， 即 当 我 们 确 
实 开始 申请 小 块 内 存 时 ，Python 才 开始 建立 这 个 内 存 池 。 正 如 前 面 所 提 到 的 ， 当 申请 28 
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个 字 节 的 内 存 时 ，Python 实际 上 将 申请 32 字 节 的 内 存 。 Python 首先 会 根据 32 字 节 对 应 的 
class size index (3) 在 usedpools 中 对 应 的 位 置 查 找 ， 如 果 发 现在 对 应 的 位 置 后 并 没有 链接 
任何 可 用 的 pool，Python 会 从 usable_arenas 链表 中 的 第 一 个 “可 用 的 ”arena 中 获得 一 
个 pool。 需 要 特别 注意 的 是 ， 当 前 获得 的 arena 中 包含 的 这 些 pools 可 能 并 不 属于 同一 个 
class size index 。 

考虑 一 下 这 样 的 情况 , 当 申请 32 字 节 内 存 时 , 从 “可 用 的 "arena 中 取出 其 中 一 个 pool 
用 作 32 字 节 的 pool。 当 下 一 次 内 存 分 配 请 求 分 配 64 字 节 的 内 存 时 ，Python 可 以 直接 使 用 
当前 “可 用 的 ”arena 的 另 一 个 bool 即 可 。 这 正如 我 们 前 面 所 说 ，arena 没有 size class 的 
属性 ， 而 pool 才 有 〈 见 代码 清单 16-4)。 
代码 清单 16-4 , 
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可 以 看 到 ， 如 果 开 始 时 usable_arenas 为 空 ， 那 么 Python 会 在 代码 清单 16-4 的 [1] 
处 通过 new_arena 申请 一 个 arena, 开始 构建 usable_arenas 链表 ， 这 里 就 是 我 们 刚才 中 
留 下 来 的 问题 的 答案 ， 在 这 里 ， 一 个 脱离 了 unused_arena_objects 并 转变 为 “可 用 ”的 
arena 被 纳入 了 usable_arenas 的 控制 。 在 代码 清单 16-4 的 [2] 处 ，Python 会 尝试 从 
usable_arenas 链表 中 的 第 一 个 arena 所 维护 的 pool 集合 中 取出 一 个 可 用 的 pool。 如 果 成 
功 地 取出 了 这 个 pool, 那么 在 [3] 处 ， Python 会 进行 一 些 维护 信息 的 更 新 工作 ， 甚 至 在 当前 
arena 中 可 用 的 pool 已 经 用 完 之 后 ， 将 该 arena 从 usable_arenas 链表 中 摘除 。 那 位 客 官 
说 了 ， 你 不 能 摘 下 来 就 一 了 百 了 啊 ， 摘 下 来 之 后 这 块 内 存 不 就 失去 控制 了 ? 别 急 ， 别 忘 了 
还 有 个 arenas 数组 啊 ， 孙 猴子 再 厉害 ， 也 逃 不 出 如 来 佛 的 魔爪 的 @。 


需要 注意 的 是 ， 在 代码 清单 16-4 的 加 处 的 判断 表明 获得 pool 有 可 能 失败 ， 那 么 在 什 
么 情况 下 ， 一 个 arena 中 的 freepools 会 是 NULL 呢 ， 呢 ， 回 忆 一 下 前 面 对 new_arena 的 剖 
析 ， 没 错 ， 在 那里 ，new_arena 准备 返回 的 arena 的 freepools 就 是 为 Na5 的 。 那么 在 [2] 
处 发 现 pool 为 NULL 时 Python 会 怎么 处 理 呢 ， 我 们 把 这 个 话题 放 到 后 面 。 


初始 化 之 一 


好 了 ， 现 在 我 们 手 里 有 了 一 块 用 于 32 字 节 内 存 分 配 的 pool， 为 了 以 后 提高 内 存 分 配 的 
效率 , 我 们 需要 将 这 个 pool 放 入 到 usedpools 中 。 这 一 步 , 叫做 init pool ( 见 代码 清单 16-5)。 
代码 清单 16-5 
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在 代码 清单 16-5 的 [1] 处 ，Python 将 得 到 的 pool 放 入 了 useapeols 中 。 当 一 个 从 未 
被 使 用 的 pool (也 就 是 由 new_arena 返回 的 aerna 中 的 poo1) 被 链 入 usedpools 中 时 ， 
从 后 面 的 分 析 可 以 看 到 ， 其 szidx 是 被 设 为 了 0xFFFF 的 ， 所 以 这 时 init pool 的 动作 会 
执行 [3]， 而 不 会 执行 [2]。 只 有 当 一 个 pool 从 empty 状态 重新 转 为 used 状态 之 后 ， 由 于 这 
时 szidx 还 是 其 转 为 empty 状态 之 前 的 szidx， 所 以 才 有 可 能 执行 [2]: 

在 什么 样 的 情况 下 才 会 发 生 一 个 pool 从 empty 状态 转换 为 used 状态 呢 ? 假设 申请 的 
内 存 的 size class index 为 i， 且 usedpools[i+ 二 处 没有 处 于 used 状态 的 bool， 同 时 在 
Python 维护 的 全 局 变量 Ereepools 中 还 有 处 于 empty 的 pool, 那么 位 于 freepools 所 维 
护 的 pool 链表 头 部 的 pool 将 被 取出 来 , 放 入 useGpools 中 ,并 从 其 内 部 分 配 一 抉 block。 
同时 ， 这 个 pool 也 就 从 empty 状态 转换 到 了 used 状态 。 下 面 我 们 看 一 看 这 个 行为 在 代码 
中 是 如 何 体现 的 。 





其 中 [init_pool] 处 引用 的 是 前 面 剖析 的 关于 init pool 的 代码 。 需 要 注意 的 是 ， 虽 然 
一 个 pool 从 empty 状态 转 为 used 状态 时 ， 携 带 了 有 效 的 ,szidx 信息 , 但 是 这 只 是 上 一 次 
pool 被 使 用 时 的 信息 。 只 有 当当 前 内 存 分 配 动作 对 应 的 size class index 与 这 个 szidx 完全 
一 致 时 ， 才 会 执行 代码 清单 16-5 的 [2]， 否 则 ，Python 还 是 会 照常 进行 [3]， 以 重新 对 pool 
进行 初始 化 。 


初始 化 之 二 


我 们 现在 可 以 来 看 看 ， 当 Pyobject_Malloc 从 new_arena 中 得 到 一 个 新 的 arena 后 ， 
是 怎么 样 来 初始 化 其 中 的 pool 集合 ,并 最 终 完 成 Pyobject_Malloc 函数 的 分 配 一 个 block 
这 个 终极 任务 的 《 见 代码 清单 16-6)。 
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代码 清单 16-6 





Python 首先 在 代码 清单 16-6 的 [1] 处 从 新 申请 的 arena 中 取出 一 个 崭新 的 pcol， 然 后 
设置 pool 中 的 arenaindex， 这 个 index 实际 上 就 是 pool 所 在 的 arena 位 于 arenas 所 指 的 
数组 中 的 序号 ， 这 个 东西 有 什么 用 昵 ， 用 处 大 着 呢 。 它 虽然 不 能 医治 跌 打 损伤 ， 却 能 用 来 
判断 一 个 block 是 否 在 某 个 pool 中 。 还 记得 我 们 在 考察 bool 管理 block 集合 时 看 到 的 那 
个 引起 Ereeblock 舞动 的 Pyobject_rree 吗 ， 里 面 就 用 到 这 个 arenaindex 








在 实际 发 布 的 Python 2.5 中 , pyobject_Free 里 实际 上 使 用 的 是 宏 版 本 的 Py_ADDRESS_ 
IN_RANGE， 而 并 非 这 里 给 出 的 函数 版 本 Py_aDDRESS_IN_RANGE， 但 是 它们 的 代码 都 是 一 
样 的 。 


随后 Python 将 新 得 到 的 pool 的 sziax 设置 为 0xffff， 以 表示 这 家 伙 以 前 从 来 没 管理 
过 block 集合 。 接 着 ，Python 还 调整 了 刚 获 得 的 arena 中 的 pools 集合 ， 其 至 可 能 调整 


usable_arenasS。 
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在 做 完 这 些 之 后 ，Python 会 通过 goto 直接 跳 到 init pool 的 地 方 ， 完 成 将 bcl 放 入 
usedpools 中 的 任务 。 

无 论 什么 开源 的 项 目 ， 内 存 管理 都 基 最 繁琐 ， 最 能 体现 “细节 是 魔 淆 ”的 地 方 ， 在 申 
请 内 存 的 过 程 中 ， 还 有 一 些 细节 这 里 就 不 再 一 一 涉及 了 ， 不 过 最 后 我 们 还 是 要 给 出 
PyObject_Malloc 的 总 体 的 结构 。 同 时 ， 强 烈 建议 您 打开 代码 阅读 的 工具 ， 一 头 扎 进 
PyObject_Mailloc 的 细节 中 。 


上 ES$ 
OK OC 
4 sa ' Py 
= 种 “i py 
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16.2.4.3 ”block 的 释放 
考察 完了 对 block 的 分 配 ， 是 时 候 来 看 看 对 block 的 释放 了 。 对 block 的 释放 实际 上 就 
是 将 一 块 block 归还 给 pool1， 我 们 已 经 知道 ，poo1l 可 能 有 3 种 状态 ， 在 分 别处 于 3 种 状 
态 ， 它 们 各 自 的 位 置 是 不 同 的 。 
当 我 们 释放 一 个 block 后 , 可 能 会 引起 pool 的 状态 的 转变 , 这 种 转变 可 分 为 两 种 情况 : 
> “used 状态 转变 为 empty 状态 
> fall 状态 转变 为 used 状态 
当然 ， 更 多 的 情况 是 pool 中 尽管 收回 了 一 个 block, 但 是 它 仍然 处 于 used 状态 。 这 是 
最 简单 的 情况 ， 我 们 从 这 个 最 简单 的 情况 说 起 。 
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在 pool 的 状态 保持 used 状态 这 种 情况 下 ，Python 仅仅 将 block 重新 放 入 到 自由 block 
链表 中 ， 并 调整 了 poo1 中 的 ref .count 这 个 引用 计数 ， 确实 非常 简单 。 

如 果 释 放 block 之 前 ，block 所 属 的 pool 处 于 fall 状态 呢 ?” 这 种 情况 也 比较 简单 ， 仅 
仅 是 将 pool 重新 链 回 到 usedpools 中 即 可 ， 看 下 面 的 代码 : 





最 复杂 的 情况 发 生 在 pool 在 收回 block 前 后 状态 从 usea 状态 转 为 empty 状态 的 情形 
下 ， 我 们 来 看 看 Python 的 处 理 。 首 先 Python 要 做 的 是 将 empty 状态 的 pool 链 入 到 
freepools 中 去 〔( 见 代码 清单 16-7)。 


代码 清单 16-7 
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代码 清单 16-7 的 []] 完 成 了 将 empty 状态 的 pool 放 入 freepools 维护 的 链表 中 的 工 
作 ， 似 乎 这 样 就 可 以 了 ， 一 切 都 能 够 正常 运转 了 ， 所 有 的 内 存 始终 都 在 掌握 之 中 。 


确实 ， 在 Python 2.5 之 前 ， 包 括 24，Python 就 是 这 么 做 的 ， 但 是 这 样 做 隐藏 着 一 个 
类 似 于 内 存 泄漏 的 问题 。 很 多 人 也 都 意识 到 这 个 问题 ， 但 都 没有 太 大 的 动力 去 修改 ， 因 为 
这 种 情况 只 在 极 少数 情况 下 会 发 生 。 

这 个 问题 就 是 ，Python 的 arena 从 来 不 释放 pool。 这 个 问题 为 什么 会 引起 类 似 于 内 存 
汽 漏 的 现象 呢 。 考 虑 这 样 一 种 情形 ， 申 请 10X 1024 X1024 个 16 字 节 的 小 内 存 ， 这 就 意味 
着 必须 使 用 160MB 的 内 存 ， 由 于 Python 没有 默认 将 前 面 提 到 的 限制 内 存 池 的 wrmt_ 
MEMORY_LIMITS 编译 符号 打开 ,所 以 Python 会 完全 使 用 arena 来 满足 你 的 需求 。 这 都 没有 
问题 ， 关 键 的 问题 在 于 过 了 一 段 时间 ， 你 将 所 有 16 字 节 的 内 存 都 释放 了 ， 这 些 内 存 都 回 
到 arena 的 控制 中 ， 似 乎 也 没有 问题 。 但 是 问题 恰恰 就 在 这 时 出 现 了 。 因 为 arena 始终 不 
会 释放 它 维护 的 pool 集合 ， 所 以 这 160MB 的 内 存 始终 被 Python 占用 ， 如 果 以 后 程序 运 
行 中 再 也 不 需要 160MB 如 此 巨大 的 内 存 ， 这 点 内 存 岂 不 是 就 浪费 了 ? 

当然 ， 这 种 情形 必须 在 大 量 持续 申请 小 内 存 对象 时 才 会 出 现 ， 平时 大 家 几乎 不 会 碰 到 
这 种 情况 ， 所 以 这 个 问题 也 就 一 直 留 在 了 Python 中 ， 但 是 在 2004 年 的 时 候 ， 一 个 叫 Evan 
Jones 的 老兄 不 能 忍受 下 去 了 ， 他 在 对 一 些 巨 大 的 图 做 某 种 算法 操作 时 必须 持续 申请 大 量 
小 块 内 存 ， 这 导致 Python 占用 的 内 存 冲 上 1GB 后 就 再 也 掉 不 下 来 。 想 一 想 ， 确 实 相当 痛 
苦 ， 这 位 老兄 一 番 探 索 ， 终 于 发 现 问题 的 根源 在 arena 这 里 ， 于 是 一 鼓 作 气 ， 搞 出 了 一 套 
解决 方案 ， 并 在 PyCon 2005 上 做 了 个 报告 ， 引 起 了 强烈 的 反响 。 但 是 Python 的 核心 开发 
团队 一 直 没 有 将 这 个 patch 并 入 到 Python 代码 中 ， 一 直到 2006 年 ， 才 出 Tim Peters (这 位 
老兄 的 名 头 在 Python 社区 也 是 响当当 的 , 在 Python 的 交互 环境 下 键入 import this,， 看 到 这 
位 老兄 的 名 号 了 吧 ，the zen of python 的 创造 者 ， 当 然 ， 他 在 Python 社区 的 地 位 可 不 是 靠 
这 几 句 广告 语 获得 的 ) 将 这 个 patch 整理 ， 并 入 到 了 Python 代码 中 。 加 入 了 这 个 patch 的 
Python 就 是 我 们 花 了 这 么 多 精力 削 析 的 Python 2.5。 

在 Python 2.4 中 ， 实 际 上 对 arena 是 没有 区 分 “未 使 用 ”和 “可 用 ”两 种 状态 的 ， 到 了 
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Python2.5 中 ，arena 可 以 将 自己 维护 的 pool 集合 释放 ， 返 回 给 操作 系统 ， 从 而 必须 从 “可 
用 ”状态 转 为 “未 使 用 ”状态 ， 这 也 是 必须 要 两 种 状态 的 原因 。 在 前 面 那 代码 的 [之 后 ， 
当 Python 处 理 完 pool 之 后 ， 就 要 开始 处 理 arena 了 。 


对 arena 的 处 理 实际 上 分 为 了 4 种 情况 。 
1， 如 果 arena 中 所 有 的 pool 都 是 empty 的 ， 释 放 pool 集合 占用 的 内 存 。 








可 以 看 抑 ， 除 了 将 arena 维护 的 pools 的 内 存 归还 给 系统 之 外 ，Python 还 调整 了 
usable_arenas 有 | unused_arena_object 链表 ， 将 arena 的 状态 转 到 了 “未 使 用 ”状态 ， 
以 及 一 些 其 他 的 维护 工作 。 : 

2. 如 果 之 前 arena 中 没有 了 empty 的 pool， 那 么 在 usable_arenas 链表 中 就 找 不 到 该 
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arena， 由 于 现在 arena 中 有 了 一 个 pool, 所 以 需要 将 这 个 aerna 链 入 到 usable_arenas 
链表 的 表 头 。 

3. 车 arena 中 的 empty 的 pool 个 数 为 n, 则 从 usable_arenas 开始 寻找 arena 可 以 插入 的 
位 置 ， 将 arena 插入 到 usabie_arenas。 这 个 拘 作 的 原因 是 由 于 usable_arenas 实际 
上 是 一 个 有 序 的 链表 ， 从 表 头 开始 往 后 ， 每 一 个 arena 中 的 empty 的 pool 的 个 数 ， 即 
nfreepools， 都 不 能 大 于 前 面 的 arena， 也 不 能 小 于 前 面 的 arena。 保 持 这 种 有 序 性 的 原 
因 是 分 配 block 时 ， 是 从 usable_arenas 的 表 头 开始 寻找 可 用 的 arena 的 ， 这 样 ， 就 
能 保证 如 果 一 个 arena 的 empty pool 数量 越 多 ， 它 被 使 用 的 机 会 就 越 少 。 因此 ， 它 最 终 
释放 其 维护 的 pool 集合 的 内 存 的 机 会 就 越 大 ， 这 样 就 能 保证 多 余 的 内 存 会 被 归还 给 系 
统 。 

4. 其 他 情况 ， 不 进行 任何 对 arena 的 处 理 。 

后 面 三 种 情况 的 代码 这 里 就 不 一 一 列 出 了 ， 建 议 读者 自行 到 Python 源码 中 去 探索 一 


番 。 


16.2.4.4 内 存 池 全 景 
前 面 我 们 已 经 提 到 了 ， 对 于 一 个 用 C 开发 的 庞大 的 软件 , 其 中 的 内 存 管理 可 能 是 最 复 
杂 最 繁琐 的 部 分 了 ， 这 里 我 们 看 到 了 对 不 同 尺 度 内 存 的 不 同 的 抽象 ， 看 到 了 这 些 抽象 在 各 
种 情况 下 组 成 的 各 式 各 样 的 链表 ， 非 常 复杂 。 但 是 ， 我 们 还 是 有 可 能 从 一 个 整体 的 尺度 上 
把 握 整 个 内 存 池 。 这 就 是 下 面 的 图 16-9 希望 完成 的 目标 。 尽 管 各 种 不 同 的 链表 变幻 无 常 ， 
我 们 只 需 记 住 ， 所 有 的 内 存 都 在 arenas 的 掌控 之 中 。 
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图 16-9 Python 的 小 块 内 存 的 内 存 池 全 景 
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16.3 ”循环 引用 的 垃圾 收集 





16.3.1 引用 计数 与 垃圾 收集 


尽管 学 术 界 对 于 垃圾 收集 技术 的 研究 早 在 上 个 世纪 60 年 代 左右 就 拉 开 了 帷 医 ， 然 而 
受 限于 当时 的 软 硬 件 环 境 ， 垃 圾 收集 还 仅仅 是 一 种 看 上 去 很 美的 技术 。 挽 起 裤 管 ， 亲 自 下 
田 ， 管理 一 个 又 一 个 的 字 节 ， 不 仅 是 某 些 应 用 所 必需 的 ， 更 成 为 了 程序 员 自 身 技 术 水 平 的 
象征 。 然 而 与 手动 管理 内 存 相伴 随 的 bug 也 因此 绵延 几 十 年 ， 无 法 根 绝 。 直 到 上 世纪 90 
年 代 初 ， 垃圾 收集 机 制 才 随 着 Java 的 兴起 ， 开 始 逐 渐 为 工业 界 所 接受 。 时 至 今日 ， 随 着 软 
硬件 环境 的 发 展 ， 垃 圾 收集 几乎 已 经 成 了 现代 主流 开发 语言 不 可 或 缺 的 特性 ，Java、C#， 
甚至 以 替代 C++ 为 目标 的 D 语言 ， 都 在 语言 层面 引入 了 垃圾 收集 机 制 。 


Python 同样 也 在 语言 层 实 现 了 内 存 的 动态 管理 , 从 而 将 开发 人 员 从 管理 内 存 的 亚 梦 中 
解放 出 来 。 然 而 Python 中 的 动态 内 存 管理 与 Java、C# 有 着 很 大 的 不 同 。 在 Python 中 ， 大 
多 数 对 象 的 生命 周期 都 是 通过 对 象 的 引用 计数 来 管理 的 ， 这 一 点 ， 在 本 书 前 面 的 分 析 中 ， 
我 们 已 经 多 次 提 到 。 从 广义 上 来 说 ， 引 用 计数 也 是 一 种 垃圾 收集 机 制 ， 而 且 也 是 一 种 最 直 
观 ， 最 简单 的 垃圾 收集 技术 。 唱 然 引用 计数 必须 在 每 次 分 配 和 释放 内 存 的 时 候 加 入 管理 引 
用 计数 的 动作 ， 然 而 与 其 他 主流 的 垃圾 收集 技术 相 比 ， 引 用 计数 方法 有 一 个 最 大 的 优点 ， 
即 实时 性 ， 任 何 内 存 ， 一 旦 没有 指向 它 的 引用 ， 就 会 立即 被 回收 。 而 其 他 的 垃圾 收集 技术 
必须 在 某 种 特殊 条 件 下 《比如 内 存 分 配 失败 ) 才能 进行 无 效 内 存 的 回收 。 


引用 计数 机 制 所 带 来 的 维护 引用 计数 的 额外 操作 与 Python 运行 中 所 进行 的 内 存 分 配 
和 释放 ， 引 用 赋值 的 次 数 是 成 正比 的 ， 这 一 点 ， 相 对 于 主流 的 垃圾 回收 技术 ， 比 如 标记 一 
一 清除 (Mark 一 一 Sweep)、 停 止 一 一 复制 〈Stop 一 一 Copy) 等 方法 相 比 ， 是 一 个 弱点 ， 
因为 这 些 技术 所 带 来 的 额外 操作 基本 上 只 与 待 回收 的 内 存 数 量 有 关 。 为 了 与 引用 计数 机 制 
搭配 ， 在 内 存 的 分 配 和 释放 上 获得 最 高 的 效率 ，Python 因此 设计 了 大 量 的 内 存 池 机 制 ， 在 
第 2 节 中 我 们 就 看 到 了 小 块 内 存 的 内 存 池 。 而 在 之 前 对 Python 对 象 机 制 的 齐 析 中 ， 我 们 
看 到 了 对 于 pytintObject、PyStringObject、PyDictObject、PyListObject 等 等 都 有 
与 各 种 对 象 相关 的 内 存 池 机 制 。 这 些 大 量 使 用 的 面向 特定 对 象 的 对 象 内 存 池 机 制 正 是 为 了 
竭力 弥补 引用 计数 机 制 的 软肋 。 

如 果 说 执行 效率 还 仅仅 是 引用 计数 机 制 的 一 个 软肋 的 话 ， 那 么 很 不 幸 ， 引 用 计数 还 存 
在 着 一 个 致命 的 弱点 ， 这 一 点 虽然 看 似 很 小 ， 然 而 其 存在 却 几 乎 宣判 了 引用 计数 机 制 在 垃 
圾 收集 技术 中 的 “死刑 "。 也 正 是 由 于 这 一 致命 的 弱点 ， 使 得 狭义 的 垃圾 收集 研究 从 来 没 
有 将 引用 计数 包含 在 内 。 这 个 致命 的 弱点 就 是 循环 引用 。 
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我 们 知道 ， 引 用 计数 机 制 非常 简单 ， 当 一 个 对 象 的 引用 被 创建 或 复制 时 ， 对 象 的 引用 
计数 加 1; 当 一 个 对 象 的 引用 被 销毁 时 ， 对 象 的 引用 计数 减 1。 如 果 对 象 的 引用 计数 减少 
为 0， 那么 意味 着 对 象 已 经 不 会 被 任何 人 使 用 ， 可 以 将 其 所 占用 的 内 存 释 放 。 问 题 的 关键 
就 在 于 ， 循 环 引用 可 以 使 一 组 对 象 的 引用 计数 都 不 为 0， 然而 这 些 对象 实 际 上 并 没有 被 任 
何 外 部 变量 引用 ， 它 们 之 间 只 是 互相 引用 。 这 意味 着 不 会 再 有 人 使 用 这 组 对 象 ， 应 该 回收 
这 些 对 象 所 占用 的 内 存 ， 然 而 由 于 互相 引用 的 存在 ， 每 一 个 对 象 的 引用 计数 都 不 为 0， 因 
此 这 些 对 象 所 占用 的 内 存 永远 不 会 被 回收 。 图 16-10 展示 了 Python 中 的 一 个 循环 引用 。 


>>> 11 三 【]】 

>>> 12 三 {] 

>>> 11,.append (12) 
>>> 12.append (11) 
>>> 11 

[[t,...]]}] 

>>> 12 

fbi 





图 16-10 “Python 中 的 循环 引用 


毫 无 疑问 ， 这 一 点 是 致命 的 ， 这 与 手动 进行 内 存 管 理 所 产 生 的 内 存 泄露 毫 无 区 别 。 虽 
然 在 实际 中 ， 可 以 通过 某 种 方法 在 语言 一 级 保证 不 出 现 循 环 引 用 ， 然 而 这 就 要 求 开 发 者 在 
将 精力 放 到 问题 域 的 建 模 、 实 现 上 时 ， 还 需要 花费 额外 的 精 为 来 精心 设计 代码 结构 ， 以 保 
证 不 出 现 循环 引用 。 这 一 点 将 立刻 把 所 有 的 Python 开发 者 都 推 到 Java、G# 的 阵营 中 。 


要 解决 这 个 问题 ,必须 引入 其 他 的 垃圾 收集 技术 来 打破 循环 引用 ， Python 中 引入 了 主 
流 垃 圾 收集 技术 中 的 标记 一 一 清除 和 分 代 收 集 两 种 技术 来 填补 其 内 存 管 理 机 制 中 最 后 的 
也 是 最 致命 的 漏洞。 


16.3.2 三 色 标 记 模 型 


无 论 何 种 垃圾 收集 机 制 ， 一 般 都 分 为 两 个 阶段 : 垃圾 检测 和 垃圾 回收 。 垃 圾 检测 是 从 
所 有 的 已 分 配 的 内 存 中 区 别 出 可 以 回收 的 内 存 和 不 可 回收 的 内 存 ， 而 垃圾 回收 则 是 使 系统 
重新 掌握 在 垃圾 检测 阶段 所 标识 出 来 的 可 回收 内 存 块 。 在 本 节 ， 我 们 将 来 看 一 看 标记 一 一 
清除 (Mark 一 一 Sweep) 方法 是 如 何 实现 的 ， 并 为 这 个 过 程 建立 一 个 三 色 标 记 横 型 。Python 


中 的 垃圾 收集 正 是 基于 这 个 模型 完成 的 。 
从 具体 的 实现 上 来 讲 ， 标 记 一 一 清除 方法 同样 遵循 垃圾 收集 的 两 个 阶段 ， 其 简要 工作 
过 程 如 下 : 


Python 源码 六 于 一 一 深 和 性 菜 完 动 下 过 车 左 心 花 藉 
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> “寻找 根 对 象 〈root object) 的 集合 ， 所 谓 的 root object 即 基 一 些 全 局 引用 和 函数 
栈 中 的 引用 。 这 些 引 用 所 用 的 对 象 是 不 可 被 蓟 除 的 。 而 这 个 root objeet 集合 也 是 
垃圾 检测 动作 的 起 点 
> ”从 root object 集合 出 发 ， 沿 着 root object 集 侣 中 的 每 一 个 引用 ， 如 果 能 到 达 某 个 
对 象 A， 则 A 称 为 可 达 的 《reachable)， 可 达 的 对 象 也 不 可 被 删除 。 这 个 阶段 就 
是 垃圾 检测 阶段 
> ” 当 垃 圾 检测 阶段 结束 后 ， 所 有 的 对 象 分 为 了 可 达 的 和 不 可 达 的 unreachable) 两 
部 分 ， 所 有 的 可 达 对 象 都 必须 予以 保留 ， 而 所 有 的 不 可 达 对 象 所 占用 的 内 存 将 
被 回收 ， 这 就 是 垃圾 回收 阶段 
在 垃圾 收集 动作 被 激活 之 前 ， 系 统 中 所 分 配 的 所 有 对 象 和 对 象 之 间 的 引用 组 成 了 一 张 
有 向 图 ， 其 中 对 象 是 图 中 的 节点 ， 而 对 象 间 的 引用 是 图 的 边 。 我 们 在 这 个 有 向 图 的 基础 上 
建立 一 个 三 色 标注 模型 ， 更 形象 地 展示 垃圾 收集 的 整个 动作 。 当 垃圾 收集 开始 时 ， 我 们 候 
设 系统 中 的 所 有 对 象 都 是 不 可 达 的 , 对 应 在 有 向 图 上 , 即 所 有 的 节点 都 标注 为 白色 。 随后 ， 
从 垃圾 收集 的 动作 开始 ， 沿 着 始 于 root 6bject 集合 中 的 某 个 object 的 引用 链 ， 在 某 个 时 刻 
到 达 了 对 象 A， 那 么 我 们 将 A 标记 为 灰色 ， 次 色 表 示 一 个 对 象 是 可 达 的 ， 但 是 其 所 包含 的 
引用 还 没有 检查 。 当 我 们 检查 了 对 象 A 中 所 包含 的 所 有 引用 之 后 ，A 将 被 标记 为 黑色 ， 以 
示 其 包含 的 所 有 引用 已 经 被 检查 过 了 。 显 然 ， 这 时 ，A 中 引用 所 引用 的 对 象 则 被 标记 为 了 
灰色 。 假 如 我 们 从 root object 集 侣 出 发 ， 采 用 先 广 搜索 的 策略 ， 可 以 想象 ， 灰 色 节 点 对 象 
集合 就 如 同一 个 波 的 阵 面 一 样 ， 不 断 向 外 扩散 ， 随 着 所 有 的 灰色 节点 都 变 为 了 黑色 节点 ， 
也 就 意味 着 垃圾 检测 阶段 结束 了 ,图 16-11 展示 了 垃圾 收集 的 某 个 时 刻 有 向 图 的 一 个 局 部 。 





图 16-11 垃圾 收集 过 程 中 某 个 时 刻 的 多 个 对 象 组 成 的 有 向 图 


16.4 Python 中 的 垃圾 收集 


如 前 所 述 ， 在 Python 中 ， 主 要 的 内 存 管理 手段 是 引用 计数 机 制 ， 而 标记 一 清除 和 
分 代 收 集 只 是 为 了 打破 循环 引用 而 引入 的 补充 技术 。 这 一 事实 意味 着 Python 中 的 垃圾 收 
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集 只 关注 可 能 会 产生 循环 引用 的 对 象 。 很 显然 ， 像 pyIntobject、PyStringobject 这 些 
对 象 是 绝 不 可 能 产生 循环 引用 的 ， 因 为 它们 内 部 不 可 能 持 有 对 其 他 对 象 的 引用 。Python 中 
的 循环 引用 总 是 发 生 在 container 对 象 之 间 ， 所 谓 container 对 象 即 是 内 部 可 持 有 对 其 
他 对 象 的 引用 的 对 象 ， 比 如 lisc、daict、ctass、instance 等 等 。 当 Python 的 垃圾 收集 
机 制 运行 时 ， 只 需要 去 检查 这 些 container 对 象 ， 而 对 PyIntObject、PyStringObject 
这 些 对 象 则 不 需 理会 ， 这 使 得 垃圾 收集 带 来 的 开销 只 依赖 于 container 对 象 的 数量 ， 而 
非 所 有 对 象 的 数量 。 为 了 达到 这 一 点 ，Python 必须 跟踪 所 创建 的 每 一 个 container 对 象 ， 
并 将 这 些 对 象 组 织 到 一 个 集 侣 中 ， 只 有 如 此 ， 才 能 将 垃圾 收集 的 动作 限制 在 这 些 对 象 上 。 

那么 Python 采用 了 什么 结构 将 这 些 container 对 象 组 织 在 一 起 呢 ? Python 采用 了 一 个 双 
向 链表 ， 所 有 的 container 对 象 在 创建 之 后 ， 都 会 被 搬入 到 这 个 链表 中 。 


16.4.1 可 收集 对 象 链表 


在 对 Python 对 象 机 制 的 分 析 中 我 们 已 经 看 到 ， 任 何 一 个 Python 对 象 都 分 为 两 部 分 ， 
一 部 分 是 pyobject_HEAD， 另 一 部 分 是 对 象 自身 的 数据 。 然 而 ,对 于 一 个 需要 被 垃圾 收集 
机 制 跟踪 的 container 对 象 而 言 ， 这 还 不 够 ， 因 为 这 个 对 象 还 必须 链 入 到 Python 内 部 的 
可 收集 对 象 链表 中 去 。 一 个 container 对 象 想 要 成 为 一 个 可 收集 的 对 象 ， 则 必须 加 入 另 
外 的 信息 ， 这 个 信息 位 于 Pyobject_HEAD 之 前 ， 称 为 PpyGC_Head。 






所 以 ， 对 于 Python 所 创建 的 可 收集 container 对 象 ， 其 内 存 分 布 与 我 们 之 前 所 了 解 
的 内 存 布局 是 不 同 的 ， 我 们 可 以 从 可 收集 container 对 象 的 创建 过 程 中 疯 见 其 内 存 分 布 
( 见 代 码 清单 16-8)。 
代码 清单 16-8 
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代码 清单 16-8 的 [1] 处 可 以 清楚 地 看 到 , 当 Python 为 可 收集 的 container 对 象 申请 
内 存 空间 时 ， 为 eyeG_Heada 也 申请 了 内 存 空 间 ， 并 且 其 位 置 在 ,container 对 象 之 前 。 所 
以 我 们 现在 对 于 PyListobject、PyDictObject 等 对 象 的 内 存 分 布 的 推测 应 该 变 成 如 图 
16-12 所 示 的 情形 。 需 要 注意 ， 在 申请 内 存 时 ， 使 用 的 是 pyobject_MaLLoc， 这 将 最 终 调 


16-12 ”被 垃圾 收集 机 制 监 控 的 container 对 象 

在 可 收集 container 对 象 的 内 存 分 布 中 ， 内 存 分 为 三 个 部 分 ， 首 先 的 一 块 用 于 垃圾 
收集 机 制 ， 然 后 紧 跟 着 的 是 Python 中 所 有 对 象 都 会 有 的 pyobjiect_HEAD， 最 后 才 是 属于 
container 对 象 自身 的 数据 。 这 里 的 Concainer Object 既 可 以 是 pyptcEobjecc， 也 可 
以 是 pyListobject， 等 等 。 

在 PyGc_Head 部 分 ， 除 了 两 个 用 于 建立 链表 结构 的 前 向 和 后 向 指针 外 ， 还 有 一 个 
gc_ref， 在 代码 清单 16-8 的 [2] 处 我 们 看 到 ， 这 个 值 被 初始 化 为 Gc_UNTRACED。 这 个 变量 
对 于 垃圾 收集 的 运行 公关 重 要 ， 但 是 现在 ， 在 深入 这 个 变量 以 及 垃圾 收集 之 前 ， 我 们 还 需 
要 了 解 其 他 一 些 事实 ， 这 里 我 们 先 将 其 放下 。 同 样 对 于 [3]， 我 们 这 里 也 先 不 剖析 ， 不 过 别 
急 ， 马 上 我 们 就 会 回来 。 
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当 垃圾 收集 机 制 运行 期 间 ， 我 们 需要 在 一 个 可 收集 的 container 对 象 的 pyec_Head 
部 分 和 PyObject_HEAD 部 分 来 回转 换 。 更 清楚 地 说 ， 某 些 时 候 ， 我 们 持 有 一 个 对 象 x 的 
PyObject_HEAD 的 地 址 ， 但 是 我 们 需要 根据 此 地 址 获得 & 的 pycc_Heaa 的 地 址 ; 而 在 某 
些 时 候 ， 我 们 又 需要 进行 这 一 动作 的 逆 运 算 。Python 提供 了 在 两 个 地 址 之 间 的 转换 算法 ， 
届时 16-8 其 机 的 是 从 PyGc_Heaa 地 址 转换 为 pyobject_HEAD 地 址 的 算法 。 





在 PyGc_Head 中 ， 了 有 于 过 二 抽 关 而 和 村 只 有 将 创建 的 可 收集 container 
对 和 象 链接 到 Python 内 部 维护 的 可 收集 对 象 链表 中 ，Python 的 垃圾 收集 机 计 
理 这 个 container 对 象 。 但 是 我 们 发 现 ， 在 创建 可 收集 container 对 象 之 时 ; 并 没有 立 
即将 这 个 对 象 链接 到 链表 中 。 实 际 上 ， 这 个 动作 是 发 生 在 创建 某 个 container 对 象 的 最 
后 一 步 ， 从 pypictobject 的 创建 过 程 ， 我 们 可 以 清楚 地 看 到 这 一 点 。 








在 创建 container 对 象 的 最 后 一 步 ， Python 通过 _Pyobject_Gc_TRAcD 将 所 创建 的 
container 人 Python 中 的 可 收集 对 象 链表 中 。 





前 面 我 们 说 过 ，Python 会 将 自己 的 垃圾 收集 机 制 限制 在 其 维护 的 可 收集 对 象 链表 上 ， 
因为 所 有 的 循环 引用 一 定 是 发 生 在 这 个 链表 中 的 一 群 对 象 之 间 。 在 _Pyobject_GC_TRACK 
之 后 ， 我 们 所 创建 的 container 对 象 也 就 阐 于 Python 垃圾 收集 机 制 的 掌控 之 中 了 。 
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闻 样 ，Python 还 提供 了 将 一 个 container 对 象 从 链表 中 摘除 的 方法 ， 显 然 ， 这 个 方 
这 a izes 





很 明显 ，_pyobject_Gc_UNDRACK 仅仅 是 _pyobject_Gc_TRACK 的 逆 运 算 而 已 。 在 图 
16-13 中 ， 我 们 展示 了 Python 运行 过 程 的 某 个 时 刻 ， as 





图 16-13 可 收集 对 象 链表 





16.4.2 ”分 代 的 垃圾 收集 


分 代 的 垃圾 收集 技术 是 在 上 个 世纪 80 年 代 初 发 展 起 来 的 一 种 垃圾 收集 机 制 ， 一 系列 
的 研究 表明 ， 无 论 使 用 何 种 语言 开发 ， 无 论 开 发 的 是 何 种 类 型 、 何 种 规模 的 程序 ， 都 存在 
这 样 一 点 相同 之 处 。 即 ， 一 定 比 例 的 内 存 块 的 生存 周期 都 比较 短 ， 通 常 是 几 百 万 条 机 器 指 
令 的 时 间 ， 而 剩 下 的 内 存 块 ， 其 生存 周期 会 比较 长 ， 甚 至 会 从 程序 开始 一 直 持续 到 程序 结 
束 。 研 究 表明 ， 对 于 不 同 的 语言 ， 不 同 的 应 用 程序 ， 这 个 比例 会 在 80% 到 98% 之 间 游 走 。 


这 一 发 现 对 于 垃圾 收集 技术 有 着 重要 的 意义 。 从 前 面 的 分 析 我 们 已 经 看 到 ， 像 标记 一 
一 清除 这 样 的 垃圾 收集 所 带 来 的 额外 操作 实际 上 与 系统 中 总 的 内 存 块 的 数量 是 相关 的 ， 当 
需 回收 的 内 存 块 越 多 时 ， 垃 圾 检测 带 来 的 额外 操作 就 越 多 ， 而 垃圾 回收 带 来 的 额外 操作 就 
越 少 ， 反 之 ， 当 需 回 收 的 内 存 块 越 少时 ， 垃 圾 检测 就 将 比 垃圾 回收 带 来 更 少 的 额外 操作 。 
无 论 如 何 ， 我 们 可 以 看 到 , , 当 系 统 中 使 用 的 内 存 越 少 时 ， 整 个 垃圾 收集 所 带 来 的 额外 操作 
也 就 越 少 。 为 了 使 垃圾 收集 的 效率 提高 ， 基 于 研究 人 员 所 发 现 的 统计 规律 ， 我 们 就 可 以 采 
用 一 种 以 空间 换 时 间 的 策略 。 这 种 以 空间 换 时 间 的 分 代 收 集 的 技术 正 是 当前 支撑 着 Java 
的 关键 技术 。 


这 种 以 空间 换 时 间 的 总 体 思 想 是 : 将 系统 中 的 所 有 内 存 块 根据 其 存活 时 间 划分 为 不 同 
的 集合 ， 每 一 个 集合 就 称 为 一 个 “ 代 ” 垃圾 收集 的 频率 随 着 “ 代 ” 的 存活 时 间 的 增 大 而 
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减 小 ， 也 就 是 说 ， 活 得 越 长 的 对 象 ， 就 越 可 能 不 是 垃圾 ， 就 应 该 越 少 去 收集 。 那 么 这 个 存 
活 时 间 是 如 何 来 衡量 的 呢 ， 通 常 是 利用 经 过 了 几 次 垃圾 收集 动作 来 衡量 ， 如 果 一 个 对 象 经 
过 的 垃圾 收集 次 数 越 多 ， 那 么 显然 ， 其 存活 时 间 就 越 长 。 

举 个 具体 的 例子 来 说 ， 当 某 些 内 存 块 M 经 过 了 3 次 垃圾 收集 的 洗礼 还 依然 存活 时 ， 
我 们 就 将 M 划 到 一 个 集合 A 中 去 ， 而 新 分 配 的 内 存 都 划 到 集合 B 中 去 。 当 垃圾 收集 开始 
工作 时 ， 大 多 数 情况 下 都 只 对 集合 B 进行 垃圾 回收 ， 而 对 A 的 回收 要 等 到 过 了 相当 长 一 
段 时 间 才 进行 ， 这 就 使 得 垃圾 收集 需要 处 理 的 内 存 变 少 了 ， 效 率 则 得 到 提高 。 可 以 想见 ， 
B 中 的 内 存在 经 过 玫 次 收集 之 后 ， 有 一 些 内 存 块 会 被 转移 到 A 中 ， 而 在 A 中 ， 实 际 上 确 

” 实 会 存在 一 些 垃圾 ， 这 些 垃圾 的 回收 因为 这 种 分 代 的 机 制 会 被 延迟 。 这 就 是 我 们 所 说 的 以 
室 间 换 时 间 的 策略 。 

在 Python 中 ， 也 引入 了 分 代 的 垃圾 收集 机 制 ， 总 共有 三 个 “ 代 ” 在 _Pyobject_Gc_ 
TRACK 中 我 们 看 到 了 一 个 名 为 _PyGc_generation0 的 神秘 变量 ， 这 个 变量 是 Python 内 部 
维护 的 一 个 指针 ， 指 向 的 正 是 Python 中 第 0 代 的 内 存 块 集合 。 

“ 代 ” 似 乎 是 一 个 很 抽象 的 概念 ， 实 际 上 ， 在 Python 中 ， 一 个 “ 代 ” 就 是 一 个 链表 ， 
所 有 属于 同一 “ 代 ” 的 内 存 块 都 链接 在 同一 个 链表 中 。 既 然 Python 中 总 共有 3 “ 代 ” 那 
么 很 显然 ，Python 中 实际 是 维护 了 三 条 链表 。 更 明确 地 说 ， 一 个 “ 代 ” 就 是 我 们 在 16.3 
节 中 所 提 到 的 一 条 可 收集 对 象 链表 ， 在 前 面 所 介绍 的 链表 的 基础 上 ， 为 了 支持 分 代 机 人 制 ， 
需要 的 仅仅 是 一 个 额外 的 表 头 而 已 。 


jr =f 1 和 ~ 
六 村 PC 
a 





可 收集 对 象 链表 ， 这 就 是 Python 中 用 于 分 代 垃圾 收集 的 三 个 “ 代 ”。 
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我 们 在 _pyobject_Gc_TRACK 中 所 见 的 _pyGc_ceneration0 不 偏 不 斜 ,指向 的 正 是 第 
0 代 内 存 集合 。 图 16-14 展示 了 用 于 控制 3 个 “ 代 ” 的 generations。 


» 











制 结构 

对 于 每 一 个 gc_generation， 其 中 的 count 记录 了 当前 这 条 可 收集 对 象 链表 中 一 共有 
多 少 个 可 收集 对 象 。 在 _Pyobject_Gc_Malloc 中 ， 我 们 可 以 看 到 ， 在 分 配 了 内 存 之 后 ， 
都 会 进行 generations10] .count++ 的 动作 , 将 第 0 代 内 存 链表 中 所 维护 的 内 存 块 的 数量 
加 1， 这 预示 着 所 有 新 创建 的 对 象 实际 上 都 会 被 加 入 到 第 0 代 可 收集 对 象 链表 中 ， 这 一 点 
在 _Pyobject_GC_TRACK 中 被 证 实 了 。 细心 的 朋友 可 能 已 经 发 现 ， 这 个 递增 count 的 动作 
实际 上 是 被 提前 了 ’ 因为 直到 _Pyobject_GC_TRACK 时 ， 所 创建 的 可 收集 container 对 象 
才 会 真正 被 链接 到 第 0 代 内 存 链表 中 。 

在 gc_generation 中 ，threshold 记录 了 该 条 可 收集 对 象 链表 中 最 多 可 容纳 多 少 个 可 
收集 对 象 ， 从 Python 的 实现 代码 中 ， 可 以 发 现 ， 第 0 代 链 表 中 最 多 可 以 容纳 700 个 
container 对 象 , 一 旦 第 0 代 内 存 链表 的 count 超过 了 700 这 个 极限 值 ， 则 会 立刻 触发 二 
圾 回收 机 制 。 这 一 点 正 是 _pyobject_cc_Malloc 在 代码 清单 16-8 的 [3] 处 所 表现 出 来 的 行 
为 。 
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在 -Byobjecc_-Gc_Malloc 中 ， 虽 然 是 由 第 0 代 内 存 链表 的 越界 触发 了 垃圾 收集 ， 但 
是 Python 会 借 此 时 机 ,对 所 有 “ 代 *” 内 存 链表 都 进行 培 圾 收集 ， 当然， 这 只 能 在 与 某 “ 代 ” 
对 应 的 链表 的 count 值 越 田 的 条 件 满足 时 才 进 行 。 从 Python 源码 中 的 注释 里 我 们 看 到 ， 
在 col lect_generations 中 ， Python 将 寻找 满足 COUNt 值 越界 条 性 的 最 “ 老 ”的 那 一 “和 代 ” 
(也 就 是 generations 数组 中 序号 最 高 的 那 一 “ 代 ”)， 然 后 回收 这 “ 代 ” 对 应 的 内 存 和 
所 有 比 它 年 轻 的 “ 代 ” 对 应 的 内 存 。 但 是 我 们 在 源码 中 却 明明 白白 地 看 见 ， 找 到 最 老 的 那 
“ 代 ”， 并 进行 处 理 之 后 ， 就 潇洒 地 一 个 break 动作 ， 拍 拍 屁股 走 人 了 ， 比 它 年 轻 的 “ 代 ” 
根本 没 处 理 啊 ，Python 源码 里 的 注释 不 是 睁 眼 说 睹 话 么 。 实际 上 ， 问 题 的 关键 出 在 那个 
collect 和 它 接受 的 参数 上 。 这 个 函数 是 Python 中 垃圾 收集 机 制 的 关键 实现 所 在 ， 下 一 节 将 
详细 前 析 这 个 函数 。 


16.4.3 ”Python 中 的 标记 一 一 清除 方法 
前 面 我 们 提 到 ，Python 采用 了 三 代 的 分 代 收集 机 制 ， 如 果 当 前 收集 的 是 第 1 代 ， 那 么 


在 开始 垃圾 收集 之 前 ，Python 会 将 比 其 “年 轻 ” 的 所 有 代 的 内 存 链 表 (当然 ， 在 这 里 只 有 
第 0 代 》 整 个 地 链接 到 第 1 代 内 存 链 表 之 后 ， 这 个 操作 是 通过 gc_list_merge 实现 的 。 











在 我 们 的 例子 中 ，from 就 是 第 0 代 内 存 链表 ， 而 to 就 是 第 1 代 内 存 链表 。 图 16-15 
展示 了 Merge 的 结果 。 

此 后 的 标记 一 一 清除 算法 就 将 在 merge 之 后 所 得 到 的 那 一 条 内 存 链表 卡 进行 。 同 时 
图 16-15 也 能 说 明 在 4.2 节 末 尾 的 collect_generations 函数 中 ， 为 什么 Python 拍 拍 
屁股 走 人 后 ， 还 敢 大 言 不 衡 地 说 它 对 符合 垃圾 回收 条 件 的 最 “ 老 ” 的 “ 代 ” 以 及 所 有 比 它 
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年 轻 的 “ 代 ” 都 进行 了 回收 。 





图 16-15 对 可 收集 对 象 链表 的 合并 操作 


在 详细 谢 析 Python 中 用 于 打破 循环 引用 的 标记 一 一 清除 垃圾 收集 方法 之 前 ， 需 要 先 
建立 一 个 循环 引用 的 最 简单 的 例子 ， 基 于 这 个 例子 ， 我 们 将 描述 Python 中 使 用 的 标记 一 一 
清除 算法 。 这 个 例子 与 图 16-10 所 示 的 例子 相 类 似 , 但 是 不 同 的 是 , 它 多 了 一 个 外 部 引用 ， 
如 图 16-16 所 示 。 


[|] Pycc Head 
>>> li:at1 = {] 
>>> liat2 = [] | | PyObject 
>>> liatil.append (list2) A 
>>> list2.oppend (list1) EI container bbject 
>>> 五 三 1istli 
>>> liwt3 = I[] 一 PySC Headgcor next 
>>> list4 三 站 
>>> list3,append (1iat4) ns PyGC Head gc gc _ prev 


>>> lista.append(listd) 


s— > Referenceto other container object 





图 16-16 ”用 于 演示 标记 一 清除 算法 的 例子 
其 中 ， 在 Pyobject_HEAD 部 分 标 出 的 数值 表示 对 象 的 引用 计数 ob_retcnt 的 值 。 
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16.4.3.1 寻找 Root Object 集合 


为 了 使 用 标记 一 一 清除 算法 ,按照 我 们 前 面 对 垃 圾 收集 算法 的 一 般 性 描 运 ， 首 先 我 们 
需要 寻找 出 root object 集合 。 那 么 在 图 16-16 中 ， 哪 些 containsr 对 人 象 应 该 属于 root 
object 呢 ? 


让 我 们 换个 角度 来 思考 ， 前 面 提 到 ，root object 是 不 能 被 删除 的 对 象 。 也 就 是 说 ， 
有 可 收集 对 象 链表 外 部 的 某 个 引用 在 引用 这 个 对 象 ， 删 除 这 个 对 象 会 导致 错误 的 行为 ， 从 
图 16-16 中 可 以 看 到 只 有 list1 应 该 属于 root object。 但 是 ， 这 只 是 观察 的 结果 ， 应 该 
如 何 设计 一 种 算法 来 得 到 这 个 结果 呢 ? 


我 们 注意 到 这 样 一 个 事实 ， 如 果 两 个 对 象 的 引用 计数 都 为 1， 但 是 仅仅 存在 它们 之 间 
的 循环 引用 ， 那 么 这 两 个 对 象 都 是 需要 被 回收 的 ， 也 就 是 说 ， 虽 然 它们 的 引用 计数 虽然 表 
现 为 非 0， 但 实际 上 有 效 的 引用 计数 为 0。 这 里 ， 我 们 提出 了 有 效 引 用 计数 的 概念 ， 为 了 
从 引用 计数 获得 有 效 引 用 计数 ， 必 须 将 循环 引用 的 影响 去 除 ， 也 就 是 说 ， 将 环 从 引用 中 摘 
除 ， 具 体 的 实现 就 是 两 个 对 象 各 自 的 引用 计数 值 都 减 去 1。 这 样 一 来 ， 两 个 对 象 的 引用 计 
数 都 成 为 了 0， 我 们 挥 去 了 循环 引用 的 迷雾 ， 使 有 效 引 用 计数 现 出 了 真 身 。 那 么 如 何 使 两 
个 对 象 的 引用 计数 都 减 1 呢 ， 很 简单 ， 假 设 这 两 个 对 象 为 &、B， 我 们 从 A 出 发 ， 因 为 它 
有 一 个 对 B 的 引用 ， 则 将 的 引用 计数 减 1， 然 后 顺 着 引用 达到 B， 因 为 8 有 一 个 对 A 的 
引用 ， 同 样 将 x 的 引用 减 1， 这 样 ， 就 完成 了 循环 引用 对 象 间 环 的 摘除 。 


但 是 这 样 就 引出 了 一 个 问题 , 假设 可 收集 对 象 链表 中 的 container 对 象 & 有 一 个 对 对 象 
c 的 引用 ， 而 c 并 不 在 这 个 链表 中 ， 如 果 将 c 的 引用 计数 减 1， 而 最 后 a 并 没有 被 回收 ， 
那么 显然 ，c 的 引用 计数 被 错误 地 减少 了 1， 这 将 导致 在 未 来 的 某 个 时 刻 出 现 一 个 对 c 的 
基 空 引用 。 这 就 要 求 我 们 必须 在 A 没有 被 删除 的 情况 下 复原 c 的 引用 计数 ， 如 果 采 用 这 样 
的 方案 ， 那 么 维护 引用 计数 的 复杂 度 将 成 倍增 长。 换 一 个 角度 ， 其 实 我 们 有 更 好 的 做 法 ， 
我 们 并 不 改动 真实 的 引用 计数 ， 而 是 改动 引用 计数 的 副本 。 对 于 副本 天 论 做 任何 的 改动 ， 
都 不 会 影响 到 对 象 生命 周期 的 维护 ， 因 为 这 个 副本 的 唯一 作用 就 是 寻找 root object 集 
合 。 这 个 副本 就 是 pyGc_Head 中 的 gc.gc_ref。 在 垃圾 收集 的 第 一 步 ， 就 是 遍历 可 收集 
对 象 链表 ， 将 每 个 对 象 的 gc.gc_ref 值 设置 为 其 ob_refcnt 值 。 
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接 下 来 的 动作 就 是 要 将 环 引用 从 引用 中 摘除 。 









ya 上 - 

其 中 的 traverse 是 与 特定 的 container 对 象 相关 的 ， 在 container 对 象 的 类 型 对 
象 中 定义 ， 一 般 来 说 ， traverse 的 动作 都 是 遍历 container 对 和 象 中 的 每 一 个 引用 ， 然后 
对 引用 进行 某 种 动作 , 而 这 个 动作 在 subtract_refs 中 就 是 visit_adecref, 它 以 一 个 回 
调 函数 的 形式 传递 到 traverse 操作 中 。 作 为 例子 ， 我 们 来 看 看 PyDictobject 对 象 所 定 
义 的 Eraverse 操作 。 


A 








对 于 dict 中 的 所 有 键 和 所 有 值 都 回调 用 回调 函数 , 即 subtract_refs 中 传递 进来 的 


visit. decref。 
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在 完成 了 subtract_refs 之 后 ， 可 收集 对 象 链表 中 所 有 contianer 对 象 之 间 的 环 引 
用 都 被 摘除 了 。 这 时 ， 有 一 些 container 对 象 的 PyGC_Head.gc.9gc. ret 还 不 为 0， 这 就 
意味 着 存在 对 这 些 对 象 的 外 部 引用 , 这些 对 象 ,就 是 开始 标记 一 一 清除 算法 的 root object 
集合 。 
图 16-17 展示 了 图 16-16 所 示 的 例子 在 经 过 了 upaate_refs 和 subtract_refs 两 步 
处 理 后 所 得 到 的 root object 集合 。 





图 16-17 update_refs 和 subtract_refs 的 执行 结果 


16.4.3.2 ”垃圾 标记 


成 功 地 寻找 到 root object 集合 之 后 ， 我 们 就 可 以 从 root object 出 发 ， 沿 着 引用 
链 ， 一 个 接 一 个 地 标记 不 能 回收 的 内 存 ， 由 于 xoot object 集合 中 的 对 象 是 不 能 回收 的 ， 
因此 ， 被 这 些 对 象 直接 或 间接 引用 的 对 象 也 是 不 能 回收 的 。 在 从 root object 出 发 之 前 ， 
我 们 首先 要 将 现在 的 内 存 链表 一 分 为 二 ， 一 条 链表 中 维护 root object 集合 ， 成 为 root 
链表 ， 而 另 一 条 链表 中 维护 剩 下 的 对 象 ， 称 为 unreachable 链表 。 之 所 以 要 剖 成 两 个 链 
表 ， 是 基于 这 样 的 一 种 考虑 显然， 现在 的 unreachable 链表 是 名 不 副 实 的 ， 其 中 可 能 
存在 被 root 链表 中 的 对 象 直接 或 间接 引用 的 对 象 , 这 些 对 象 也 是 不 能 回收 的 , 一 旦 在 标记 
的 过 程 中 ， 发 现 了 这 样 的 对 象 ， 就 将 其 从 unreachable 链表 中 移 到 root 链表 中 ; 当 完 成 
标记 后 ，unreachable 链表 中 剩 下 的 对 象 就 是 名 副 其 实 的 垃圾 对 象 了 ， 接 下 来 的 垃圾 回收 
只 需 限 制 在 unreachable 链表 中 即 可 。 


为 此 ，Python 准备 了 一 条 名 为 unreachable 的 链表 ， 通 过 move_unreachable 完成 
对 原始 链表 的 剖 分 〈 见 代码 清单 16-9)。 
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代码 清单 16-9 


' 
' IC 


s 
Sm 


在 move_unreachable 中 ， 沿 荐 可 收集 对 象 链表 依次 向 前 ， 并 检查 其 PyGC Head.gc. 
gc_ref 值 ， 我 们 发 现 ， 这 里 的 动作 是 遍历 链表 ， 而 并 非 从 root object 集合 出 发 ， 遍 历 
引用 链 。 这 将 导致 一 个 微妙 的 结果 ， 即 当 检查 到 一 个 ge_ref 为 0 的 对 象 时 ， 我 们 并 不 能 
立即 断定 这 个 对 象 就 是 垃圾 对 象 。 因 为 这 个 对 象 之 后 的 对 象 链表 上 ， 也 许 还 会 遇 到 一 个 
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root object， 而 这 个 root object 将 引用 该 对 象 。 所 以 ， 这 个 对 象 只 是 一 个 可 能 的 垃圾 
对 象 , 因此 在 代码 清单 16-9 的 [2] 处 将 其 暂时 性 地 标注 为 G6c_TENTATIVELY_ UNREAGHABLE， 
但 是 还 是 通过 gc_1ist_move 将 其 搬移 到 了 unreachabie 对 象 链表 中 , 不 过 不 要 紧 , 马上 
我 们 就 能 看 到 ，Python 留 下 了 一 条 后 路 。 


当 在 move_unreachable 中 过 到 一 个 gc_refs 不 为 0 的 对 每 六 时 ,显然 ,A 是 root object 
或 从 某 个 root object 能 引用 到 的 对 象 ， 而 a 所 引用 的 所 有 对 象 也 都 是 不 可 回收 的 对 象 。 
因此 ， 在 代码 清单 16-9 的 [里 处， 会 再 次 调用 与 特定 对 象 相关 的 traverse 操作 ， 依 次 对 a 中 
所 引用 的 对 象 进行 调用 visit_reachable。 在 visit_reachable 的 [相处 我 们 就 可 以 发 现 ， 


如 果 A 所 引用 的 对 象 之 前 曾 被 标注 为 Gc_mENTATIVELY_UNREACHABLE， 那么 现在 能 通过 a . 


访问 到 它 ， 就 意味 着 它 也 是 一 个 不 可 回收 对 象 ， 所 以 Python 会 重新 将 其 从 unreachable 
链表 中 搬移 回 原来 的 列表 ,注意 , 这 里 的 reachable, 即 是 move_nreachabi 中 的 young， 
也 就 是 我 们 所 谓 的 root object 链表 。 Python 还 会 将 其 gc_refs 设置 为 1， 表 示 该 对 象 
是 一 个 不 可 回收 的 对 象 。 同 样 ， 在 [1] 处 ， 我 们 看 到 对 a 所 引 由 的 gc_refs 为 0 的 对 象 ， 
也 将 其 gc_refs 设置 为 了 1。 想 一 想 ， 这 样 的 对 象 是 什么 对 象 呢 ? 显然 ， 它 是 在 链表 中 
move_unreachable 操作 还 没有 访问 到 的 对 象 ， 这 样 ，Python 就 直接 的 断 了 之 后 
move_unreachable 访问 它 时 将 其 移动 到 unreachable 链表 的 诱因 , 图 16-18 显示 了 链表 
被 剖 分 后 的 结果 。 


reachable(root object) 链 表 
图 16-18 最 终 获 得 的 reachable 链表 和 unreachable 链表 





当 move_unreachable 完成 之 后 ， 最 初 的 一 条 链表 就 被 剂 分 成 了 两 条 链表 ， 在 
unreachable 链表 中 ， 就 是 我 们 所 发 现 的 垃圾 对 象 ， 是 垃圾 回收 的 目标 。 但 是 ， 等 一 等 ， 
在 unreachable 链 表 中 ， 所 有 的 对 象 都 能 被 安全 地 回收 吗 ? 恐怕 未 必 。 当 20 世纪 初 人 们 
以 为 物理 学 的 大 厦 已 经 建立 完毕 时 ， 这 座 大 厦 的 上 空 叉 出现 了 小 小 的 三 林 岛 云 , 而 这 些 乌 
云 最 终 将 会 把 经 典 物 理学 的 大 厦 指 村 拉 穆 般 地 摧毁 。 现 在， 我 们 也 届 到 了 这 样 的 乌云 。 

问题 出 在 一 种 特殊 的 container 对 象 ， 邯 从 类 对 象 实例 化 得 到 的 实例 对 象 。 当 我 们 
用 Python 定义 一 个 class 时 , 可 以 为 这 个 class 定义 一 个 特殊 的 方法 :__ael_， 这 在 Python 
中 被 称 为 finalizer。 当 一 个 拥有 finalizer 的 实例 对 象 被 销毁 时 ， 首 先 会 调用 这 个 finalizer， 
因为 这 个 _ Gael _ 就 是 Python 为 开发 人 员 提 供 的 在 对 象 被 销毁 时 进行 某 些 资源 释放 的 
Hook 机 制 。 现 在 问题 来 了 ， 我 们 已 经 知道 ， 最 终 在 unraachia51e 链表 中 出 现 的 对 象 都 是 
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只 存在 循环 引用 的 对 象 ， 需 要 被 销毁 。 但 是 假如 现在 在 unreachbale 中 ， 有 两 个 对 象 ， 
对 象 在 finaiizer 中 调用 了 对 象 a 的 某 个 操作 ， 这 意味 着 安全 的 垃圾 回收 必须 保证 对 
象 A 一定 要 在 对 象 8 之 后 被 回收 ， 但 是 Python 无 法 做 到 这 一 点 ，Python 在 回收 垃圾 时 不 
能 保证 回收 的 顺序 。 于 是 ， 有 可 能 在 a 被 销毁 之 后 ，5 在 销毁 时 访问 已 经 不 存在 的 a， 毫 
无 疑问 ，Python 过 到 麻烦 了 。 虽 然 同 时 满足 存在 fimalizer 和 循环 引用 这 丙 个 条 件 的 概率 非 
常 低 , 但 Python 不 能 对 此 置之不理 。 这 是 一 个 非常 为 手 的 问题 ,从 Python 中 拿 掉 _del_ 
显然 是 很 患 大 的 ， 所 以 Python 采用 了 一 种 保守 的 做 法 ， 即 将 unreachable 链表 中 的 拥有 
finalizer 的 EyInstanceobject 对 象 统统 都 移 到 一 个 名 为 garbage 的 EyEi6EObject 对 象 
中 。 





16.4.3.3 垃圾 回收 


要 回收 unreachable 链表 中 的 垃圾 对 象 ， 就 必须 先 打 破 对 象 间 的 循环 引用 ， 前 面 我 
们 已 经 详细 地 鹿 述 了 如 何 打破 循环 引用 的 算法 。 在 寻找 root objiect 时 ， 我 们 引入 了 
qiu_refs 来 模拟 这 个 打破 过 程 ， 现在 我 们 要 真 思 真 枪 对 ‘ob_refcnt 下 手 了 ， 坦 到 
wireAchable 链表 中 的 每 一 个 对 象 的 ob_refcnt 止 变 为 0， 引 发 对 象 的 销毁 ， 





其 中 会 调用 container 对 象 的 类 型 对 象 中 的 tp_ciear 操作 ， 这 个 操作 会 调整 
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container 对 象 中 每 个 引用 所 用 的 对 象 的 引用 计数 值 ， 从 而 完成 打破 循环 的 最 终 目 标 。 作 
为 一 个 例子 ， 我 们 来 看 看 PyListobject 的 ciear 操作 。 





我 们 注意 到 ， 在 delete_garbage 中 ， 有 一 些 unreachable 链表 中 的 对 得 会 被 重新 
送 回 到 reachable 链表 ( 即 delete_garbase 函数 的 o1a 参数 ) 中 ,这 是 由 于 在 进行 clear 
动作 时 ， 如 果 成 功 进行 ， 则 通常 一 个 对 象 会 把 自己 从 垃圾 收集 机 制 维护 的 链表 中 摘除 (也 
就 是 这 里 的 collectable 链表 )。 由 于 某 些 原因 ， 对 和 象 可 能 在 clear 动作 时 ， 没 有 成 功 完 
成 必要 的 动作 ， 从 而 没有 将 自己 从 collectable 链表 摘除 ， 这 表示 对 象 认为 自己 还 不 能 
被 销毁 ， 所 以 Python 需要 将 这 种 对 象 放 回 reachable 链表 中 。 

我 们 来 看 看 图 16-18 所 示 的 unreachable 链表 中 的 list3 和 1ist4 楚 如 个 补 回 收 的 5 
在 delete_garbage 中 ， 假 如 首先 处 理 1ist3， 调 用 其 1ist_ciear， 闭 么 会 减 / 
的 引用 计数 ， 这 将 导致 list4 的 ob_refcnt 为 0， 引发 对 象 销毁 动作 ， 会 调用 
list_dealloc。 











首先 会 将 1ist4 从 可 收集 对 象 链表 中 摘除 ， 然 后 如 同 list_cieax 所 作 的 ， 会 调整 
iist4 所 引用 的 所 有 对 象 的 引用 计数 ;这 个 动作 立即 就 影响 到 了 iist3， 并 使 其 引用 计数 
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变 为 0， 同样 ，1ist3 的 销毁 动作 也 被 乔 发 了 。 如 此 一 来 ，list3 和 list4 就 都 被 安全 地 
回收 了 。 


16.4.4 垃圾 收集 全 景 


到 此 ， 我 们 已 经 详细 地 剖析 了 Python 中 垃圾 收集 机 制 的 所 有 细节 及 隐秘 之 处 ， 作为 
这 些 细节 的 综合 ， 是 时 候 来 看 一 看 Python 中 那个 实际 完成 垃圾 收集 的 ,collect 是 如 何 实 
现 的 。 了 解 了 cellect， 就 功德 圆满 了 。 
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我 们 注意 到 在 collect 函数 中 ,还 有 对 Python 中 弱 引 用 (weakref 的 处 理 , 因 为 weakref 
能 够 注册 callback 操作 ， 所 以 这 个 行为 有 点 类 似 带 有 一 ael- 的 实例 对 象 。 但 是 它们 还 
是 有 本 质 的 不 同 ，weakref 能 够 被 正确 地 清理 掉 ， 虽 然 必须 引入 一 些 烙 外 的 繁琐 的 操作 ， 
这 些 操作 就 隐身 在 handle_weakrefs 中 ， 而 带 有 __ael _ 的 实例 对 象 是 不 能 自 动 被 清除 的 ， 
最 终 将 被 放 入 garbage 链表 中 。 对 于 弱 引 用 的 处 理 ， 这 里 就 不 深入 了 ， 有 兴趣 的 读者 可 以 
自己 参考 Python 源码 。 


到 了 这 里 ， 我 们 需要 指出 一 点 ，Python 的 垃圾 收集 机 制 完 全 是 为 了 处 理 循环 引用 而 设 
计 的 , 虽然 几乎 大 多 数 对 象 在 创建 时 都 会 通过 Pyobject_cc_New, 并 最 终 调 用 _Pyob 
Gc_New， 将 创建 的 对 象 纳入 垃圾 收集 机 制 的 监控 中 。 但 是 有 趣 的 是 ， 被 垃圾 收集 监控 的 对 
象 并 非 只 有 垃圾 收集 机 制 才能 回收 ,正常 的 引用 计数 就 能 销毁 一 个 被 纳入 垃圾 收集 机 制 监 
控 的 对 象 。 比 如 我 们 来 看 看 eyFunction 对 象 的 正常 销毁 。 
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如 果 EyFunccionobjecc 对 象 因为 正常 的 引用 计数 维护 到 达 引 用 计数 为 0 的 状态 » 就 
会 调用 func_aealloc。 我 们 看 到 ，PyFunctionobject 对 象 主动 将 自己 从 垃圾 收集 监控 
的 链表 中 摘除 ,然后 调用 pyobject_Gc_Del 释放 内 存 , 之 所 以 需要 调用 pyopjsct_GC_pel， 
主要 是 为 了 将 指向 Pyobject 的 指针 调整 为 指向 pyGc_ieaa 的 指针 ， 以 释放 正确 的 内 存 。 

所 以 ， 虽然 有 很 多 对 象 挂 在 垃圾 收集 机 制 监控 的 链表 上 ， 但 实际 上 更 多 时 候 ， 是 引用 
计数 机 制 在 维护 这 些 对 象 ， 只 有 对 引用 计数 无 能 为 力 的 循环 引用 ,垃圾 收集 机 制 才 会 起 作 
用 。 事实 上 ， 对 循环 引用 之 外 的 对 象 ， 垃 圾 收集 是 无 能 为 力 的 。 因 为 挂 在 垃圾 收集 机 制 上 
的 对 象 都 是 引用 计数 不 为 0 的 ， 因 为 如 果 为 0， 早 就 被 引用 计数 机 制 “ 干 挤 ” 了 。 而 引用 
计数 不 为 0 的 对 象 只 有 两 种 情况 : 一 是 被 程序 使 用 的 对 象 ; 二 是 循环 引用 中 的 对 象 。 被 程 
序 使 用 的 对 象 是 不 能 被 回收 的 ， 所 以 垃圾 回收 能 且 只 能 处 理 循环 引用 中 的 对 象 。 

另 一 点 需要 说 明 的 是 ，Pyobject_Gc_New 底层 是 以 我 们 之 前 剖析 的 Byobject_ 
Malloc 作为 真正 申请 内 存 的 接口 的 ， 这 意味 着 在 大 多 数 情况 下 ，Python 都 在 使 用 内 存 池 。 
本 书 中 我 们 剂 析 过 的 最 大 的 对 象 就 是 pyTypeobject， 而 这 个 对 象 也 不 过 200 个 字 节 ， 小 于 
256 个 字 节 ， 同 样 可 以 使 用 内 存 池 。 所 以 我 们 可 以 将 拉 圾 收集 和 内 存 管理 完全 融 为 一 体 了 。 


16.4.5 “Python 中 的 gc 模块 
Python 中 通过 ge 模块 为 程序 员 提供 了 观察 和 手动 使 用 gc 机 制 的 接口 ， 这 一 节 ， 我 们 


通过 gc 模块 进行 一 些 观察 ， 以 加 深 对 垃圾 收集 机 制 的 理解 。 本 节 不 对 ge 模块 的 使 用 进行 
介绍 ， 关 于 gc 模块 的 使 用 ， 请 参考 Python 文档 。 
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通过 gcl.py 的 演示 , 证 明了 对 于 引用 计数 机 制 能 正常 维护 的 对 象 , 垃圾 收集 确实 起 不 
到 任何 作用 。 


正如 gc2.py 的 运行 结果 显示 的 ， 当 存在 循环 引用 时 ,引用 计数 确实 不 起 作用 了 ， 而 垃 
圾 收集 则 能 正确 回收 内 存 。 
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2 站 





由 于 我 们 执意 在 类 对 象 中 添加 了 __del 操作 ， 所 以 GC 很 生气 ， 后 果 很 严重 。 不 管 
是 对 象 a 本 身 ( 需 要 注意 ， 显 示 结 果 中 的 不 是 说 a 不 能 回收 ， 而 是 类 型 为 x 的 = 不 能 回 
收 )， 就 连 a 对 象 内 维护 的 _aict_ 也 不 能 回收 。 真 的 是 非常 严重 的 后 果 ， 这 不 就 是 内 存 
泄漏 么 ? 所 以 ， 没 什么 事 ， 千 万 不 要 轻易 启用 _ael_ 操作， 


16.4.6 ”总结 


尽管 Python 采用 了 最 经 典 的 〈 换 句 话说， 最 土 的 ) 引用 计数 来 作为 自动 内 存 管 理 的 
方案 ,但 是 Python 采用 了 多 种 方式 来 弥补 引用 计数 的 不 足 ， 内 存 池 的 大 量 使 用 ， 标 记 - 清 
除 垃圾 收集 技术 的 使 用 都 极 大 地 完善 了 Python 的 内 存 管 理 机 制 。 尽 管 引 用 计数 还 存在 着 
需要 花费 额外 的 内 存 维护 引用 计数 值 的 毛病 ， 但 现在 已 经 是 2008 年 了 ， 已 经 不 是 64KB 
的 年 代 了 ， 这 点 花 销 ， 我 想 ， 我 们 还 是 支付 得 起 的 。 而 另 一 方面 ， 引 用 计数 也 有 其 优点 ， 
倘若 它 没有 优点 ， 早 就 被 扫 进 历史 的 垃圾 堆 了 。 比 如 ， 引 用 计数 将 垃圾 收集 的 开销 分 捧 在 
了 整个 运行 时 ， 这 对 于 Python 的 响应 性 能 是 非常 有 好 处 的 。 又 比如 ， 当 前 的 研究 表 角 ， 
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在 分 布 式 环境 下 ， 引 用 计数 是 目前 最 有 效 的 垃圾 收集 技术 。 当 然 ， 这 已 经 不 是 我 们 需要 关 
心 的 话题 了 。 

内 存 管 理 和 垃圾 收集 ， 是 一 门 非常 精细 和 繁琐 的 技术 ， 本 章 进行 的 章 析 无 法 牙 盖 
Python 内 存 管 理 机 制 的 所 有 组 微 之 处 ， 如果 你 不 满足 于 本 章 的 齐 析 ， 那么 请 打开 你 的 代码 
浏览 工具 ， 在 本 章 的 基础 上 继续 深入 。 
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